自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(376)
  • 资源 (5)
  • 收藏
  • 关注

原创 《大模型AIGC系列课程》大纲

本文系统介绍了大语言模型(LLM)及其多模态应用的技术体系。内容涵盖:LLM基础(模型架构、API应用)、检索增强生成(RAG)与智能代理技术(数字人、知识图谱应用)、模型训练推理方法(微调、显存优化)、以及视觉(图像生成、文档理解)和音频(语音识别、音乐生成)领域的技术原理与实践案例。通过"中医大脑""政务文档理解"等典型应用,展示了LLM在垂直领域的落地路径,为开发者提供了从理论到实践的完整技术指南。

2023-09-05 11:46:30 3636 1

原创 Chain of Draft:以极简推理加速大模型思考​​——原理、代码实现与性能突破

摘要: Chain of Draft (CoD) 是一种新型推理范式,通过极简草稿(≤5词/步)替代传统Chain-of-Thought的冗余计算,显著降低LLM推理成本。实验显示,CoD在GSM8K等任务中保持90%+准确率的同时,平均减少85% Token消耗和65%延迟。其核心创新在于:1)硬约束中间态长度;2)仅保留关键计算节点;3)与工程师草稿思维对齐。代码实现包含动态提示组合、多后端LLM适配等模块,支持通过CLI快速验证不同任务/模型的性能提升。该技术为高成本大模型推理提供了轻量化解决方案。

2025-07-27 16:51:56 10

原创 KTO原理与代码实现全解析:人类行为理论驱动的大模型对齐

本文介绍了一种基于前景理论的大模型对齐方法KTO(Kahneman-Tversky Optimization),其核心是通过行为经济学的价值函数设计来优化人类感知效用。KTO创新性地将损失厌恶系数(λ=2.25)和风险敏感系数(α=0.88)融入奖励函数,实现分段优化:收益区域采用凹函数(边际递减),损失区域采用凸函数(放大损失厌恶)。关键技术包括滑动窗口KL散度估计参考点z0,通过错位配对和流式更新确保数值稳定性。完整方案包含数据预处理、模型训练和参考点动态估计等模块,为AIGC对齐提供了新思路。

2025-07-24 19:02:20 22

原创 基于大模型的动态用户画像采集系统设计与实现

摘要: 本文提出了一种基于大模型的动态参数采集系统,解决传统数据采集中的隐私风险、交互僵化和数据处理难题。系统通过参数存储表(MongoDB)与对话管理模块(动态Prompt)协同工作,在自然对话中实现结构化参数抽取,支持医疗预问诊等场景。核心创新包括动态参数路由、上下文感知的Prompt构建和下游任务扩展能力,并通过Redis缓存和批量处理优化性能。未来将扩展多模态参数采集和联邦学习架构,推动显性表达数据化的技术演进。

2025-07-23 11:30:49 24

原创 基于大语言模型的虚拟人视频全自动生成技术解析

文章摘要: 本文介绍了基于大模型的虚拟人视频生成技术,该系统通过"对话生成-知识蒸馏-跨模态合成"创新架构,将制作成本降至传统方案的0.3%。核心技术包括:1)百亿级大模型对话生成系统;2)知识蒸馏训练实现模型轻量化;3)多模态合成引擎实现4K视频实时渲染。测试数据显示,该方案使视频制作耗时从8.5小时缩短至4.2分钟,成本降低99.7%,同时支持48种语言。目前已在教育、电商等领域落地应用,未来有望实现电影级AI视频生成,但仍需解决实时渲染延迟等挑战。

2025-07-16 10:25:58 71

原创 自然语言指令驱动的工业机器人协同学习系统:大语言模型如何重塑智能体协作范式

本文提出一种突破性多智能体系统方案,通过“环境状态符号化建模+技能API原子化设计”双引擎架构,解决传统系统在语义理解、动态协同和自适应学习方面的瓶颈。核心技术包括运动语义解析器(自然语言→动作模板)、函数编码映射器(生成可执行代码)及自主检索增强器(失败自修复)。实测显示,该系统在模糊指令理解准确率(提升84%)、新场景适应速度(加快300倍)和多机协同效率(吞吐量提升40%)上实现显著突破,为智能制造等领域提供新一代智能体解决方案。

2025-07-15 10:49:42 81

原创 【Dify(v1.x) 核心源码深入解析】ops 模块

摘要:Dify的Ops模块作为可观测性核心子系统,通过全链路追踪、多供应商适配、异步处理和数据加密等机制,实现对AI应用运行数据的统一管理。其架构包含数据建模、供应商适配、安全加密和异步处理四大核心模块,支持LangSmith、Weave等10+供应商的无缝集成。关键技术点包括:1)7类追踪实体抽象;2)适配器模式实现供应商扩展;3)租户级AES加密;4)队列化异步处理机制。该模块通过标准化接口和批量化处理,在保证性能的同时满足企业级安全合规要求。

2025-07-14 13:37:57 37

原创 【Dify(v1.x) 核心源码深入解析】mcp 模块

本文深入解析了Dify平台中的MCP(Model Context Protocol)模块架构与实现。MCP作为连接大模型与工具服务的标准化协议,解决了工具发现、安全调用和结果整合三大核心问题。文章详细剖析了MCP的核心组件架构、Agent调用工具的完整工作流程(包括工具发现、参数解析和结果整合三个阶段),并通过代码示例展示了MCP客户端初始化、工具调用核心流程和服务端工具执行的关键实现。此外,还介绍了平台的OAuth 2.0认证流程与安全机制,为开发者理解大模型与工具集成提供了全面的技术参考。

2025-07-11 11:46:53 91

原创 突破政务文档理解瓶颈:基于多模态大模型的智能解析系统详解

多模态融合:GOT-OCR2.0视觉模型与LLM的深度耦合政务先验知识注入:红头/公章/文号等专项优化双Agent验证架构:确保关键信息抽取的可靠性。

2025-07-05 15:05:58 126

原创 基于大模型与知识图谱的对话引导意图澄清系统技术解析

本文提出了一种基于知识图谱与大语言模型的意图澄清系统,旨在解决传统RAG模型在跨文档推理和主动澄清方面的不足。系统通过知识图谱驱动的多跳推理机制和链式思维引导的对话流程,实现了动态信息补全和意图澄清。核心创新包括:1)知识图谱构建与节点选择算法;2)标签探索策略与原子事实提取方法;3)主动澄清引擎的工作流程。实验表明,该系统能有效提升复杂查询的准确率,在医疗、金融等领域实现精准交互。关键代码展示了节点选择、标签匹配和事实提取等核心组件的实现细节。

2025-07-04 14:22:29 137

原创 检索增强的大模型 NLP2SQL 生成

组件功能在 NLP2SQL 中的应用检索器根据输入查找相关上下文从知识库中查找相关DDL、文档和SQL示例生成器基于上下文生成响应根据检索结果生成准确SQL语句知识库存储结构化信息包含数据库模式、业务术语和查询示例# 转换消息格式# 调用自定义API。

2025-06-07 10:51:53 114

原创 检索增强的大模型工具调用:语义驱动的精准API选择技术

在大型语言模型(LLM)应用中,工具调用能力已成为连接AI与真实世界的桥梁。然而,传统方法存在工具选择不准确、参数匹配错误等问题。本文将深入探讨检索增强工具选择器(Retrieval-Augmented Tool Selector) 如何通过语义嵌入技术解决这些挑战。

2025-06-03 17:12:08 821

原创 深入解读Qwen3技术报告(六):Qwen3性能评估

Qwen3性能评估框架概览 Qwen3采用多维度评估体系,涵盖基础能力、专业领域、多语言支持、指令执行、安全性和实际应用六大维度。评估方法结合标准化基准测试(如MMLU、GSM8K)、自动化指标分析和人类专家评估,并与主流模型(Llama-3、GPT-4等)进行横向对比。该框架通过量化指标和质性分析,全面衡量模型的语言理解、专业问题解决及安全合规等核心能力,为AI模型评估提供系统化方法论。评估结果展现Qwen3在语言处理和专业任务中的综合性能表现。

2025-05-26 13:53:09 284

原创 深入解读Qwen3技术报告(五):后训练对齐

摘要: 本章解析了Qwen3大模型的后训练对齐技术,通过多阶段框架(监督微调、偏好对齐、安全对齐)实现三大目标:有用性、安全性和诚实性。监督微调阶段使用百万级高质量指令-回答对数据,覆盖119种语言和多样化任务类型;偏好对齐通过强化学习优化人类偏好;安全对齐专门训练模型拒绝有害请求。代码示例展示了分阶段对齐流程,强调各环节的协同作用与目标平衡(如安全性与有用性的权衡),最终将基础模型转化为符合人类价值观的AI助手。

2025-05-26 11:04:29 377

原创 深入解读Qwen3技术报告(四):Qwen3的预训练之旅

Qwen3的预训练过程通过大规模、多样化的数据构建和优化,显著提升了模型的基础能力和知识储备。与Qwen2.5相比,Qwen3的预训练数据规模翻倍,支持语言数量增加至119种,领域覆盖更加广泛,包括编程、STEM、推理任务、书籍、多语言文本和合成数据等。团队创新性地利用多模态模型从PDF文档中提取高质量文本,并通过合成数据生成策略,利用现有模型生成特定领域的内容,进一步丰富了数据来源。这些策略为Qwen3提供了坚实的知识基础和语言理解能力,确保了其卓越的性能表现。

2025-05-23 13:15:45 222

原创 深入解读Qwen3技术报告(三):深入剖析Qwen3模型架构

本文深入剖析了Qwen3模型的架构设计,重点介绍了其基础组件和创新点。Qwen3基于Transformer解码器,采用了层前归一化、分组查询注意力(GQA)等改进技术,以提升性能和计算效率。GQA通过让多个查询头共享同一组键值头,减少了参数量和计算量,同时保持了模型的表现力。此外,Qwen3的架构设计还考虑了扩展性和训练稳定性,使其在大型语言模型中具有显著优势。通过这些技术细节的解析,读者可以更好地理解Qwen3强大能力背后的架构秘密。

2025-05-22 16:37:06 1329

原创 深入解读Qwen3技术报告(二):Qwen3模型系列全景

Qwen3模型系列是一个从微型到巨型的AI家族,涵盖了从0.6B到235B参数的全系列模型,分为密集模型和混合专家模型(MoE)两大类。密集模型系列包括从Qwen3-0.6B到Qwen3-32B的多个模型,适用于从移动设备到高性能服务器的各种场景。MoE模型系列则通过稀疏激活的架构,在保持计算量稳定的同时大幅增加参数量,适用于需要高性能但资源有限的场景。Qwen3系列的核心技术创新包括思考模式与非思考模式的统一框架、思考预算机制以及高效的MoE架构,这些创新使得Qwen3能够在不同场景下灵活应对复杂任务,提

2025-05-22 13:17:33 207

原创 深入解读 Qwen3 技术报告(一):引言

本文详细解析了Qwen3的核心架构、预训练策略、后训练优化体系及性能评估与工程实践。Qwen3采用混合专家模型(MoE)和优化后的注意力机制,通过三阶段预训练策略构建大规模多语言语料库,并利用长上下文训练技术扩展模型能力。后训练阶段引入双模融合机制和强化学习策略,进一步提升模型性能。评估体系涵盖通用知识、数学推理、代码生成等多维度指标,工程实践中通过动态批处理和量化部署优化推理效率。Qwen3在多项任务中表现出色,尤其在多语言能力和代码生成方面具有显著优势。

2025-05-20 15:26:11 345

原创 【Dify(v1.x) 核心源码深入解析】moderation 模块

Dify 的 moderation 模块是一套功能强大的内容审核系统,旨在对用户输入和模型输出进行敏感内容检测与处理,以确保内容的安全性和合规性。它提供了灵活多样的审核策略,可帮助开发者根据实际需求定制审核流程,广泛应用于各种需要内容管控的应用场景,如聊天机器人、内容生成平台等。

2025-05-19 13:48:04 149

原创 【Dify(v1.x) 核心源码深入解析】model_runtime 模块

Dify 的 model_runtime 模块为人工智能应用开发提供了高效的模型管理与调用解决方案。该模块通过三层架构设计(工厂方法层、供应商层和模型层),实现了模型调用的解耦与扩展性,支持多种模型类型,如大语言模型(LLM)、文本嵌入模型、语音转文本模型等。核心功能包括凭据验证机制和模型调用流程,确保安全性和灵活性。凭据验证分为供应商和模型两级,通过配置规则进行校验;模型调用流程则通过分层设计实现从应用层到模型层的无缝衔接。该模块的设计使得开发者能够轻松扩展支持的模型类型和供应商,同时保持代码的可维护性和

2025-05-14 10:22:02 151

原创 【Dify(v1.x) 核心源码深入解析】llm_generator 和 memory 模块

本篇专栏深入探讨Dify平台的核心模块——llm_generator和memory,解析其技术架构与实现原理。memory模块负责管理对话历史,通过TokenBufferMemory类限制消息数量和tokens数,确保对话连贯性。其核心方法get_history_prompt_messages从数据库中提取消息,转换为提示消息格式,并根据tokens限制进行修剪。llm_generator模块则负责与语言模型交互,生成智能对话内容。通过对这两个模块的详细分析,读者将全面理解Dify平台的智能对话与记忆管理机

2025-05-12 13:16:26 238

原创 【Dify(v1.x) 核心源码深入解析】Helper 模块

Dify 是一个功能强大的 AI 应用开发框架,其 helper 模块为开发者提供了丰富的工具函数和类,以简化开发过程并提高代码的可维护性和可扩展性。本文将深入剖析 Dify 的 helper 模块,涵盖从基础功能到高级实现的各个方面,通过详细的代码解读和示例,帮助读者全面掌握这些模块的使用方法。Dify 的 helper 模块主要包括以下几个方面:URL 签名模块主要用于生成带有签名的 URL,以确保 URL 的安全性和有效性。它通过使用 HMAC-SHA256 算法对特定数据进行签名,并将签名结果附加到

2025-05-07 14:14:26 204

原创 【Dify(v1.x) 核心源码深入解析】Code Executor 模块

Dify 的 Code Executor 模块是一个功能强大且灵活的工具,它支持多种编程语言,提供了安全的代码执行环境,并通过模板转换器和代码提供者简化了代码执行的流程。本文详细介绍了 Code Executor 模块的各个核心组件及其协作方式,希望能帮助读者更好地理解和使用这一模块。

2025-04-30 13:55:11 245

原创 【Dify(v1.x) 核心源码深入解析】File 模块

文件模型(File Model)定义了文件的核心属性,如文件类型、传输方法、相关标识符等,是整个文件处理流程的数据基础。文件解析器(UploadFileParser)负责解析上传的文件,根据配置决定以何种方式(URL 或 Base64)提供图像数据。工具文件解析器(ToolFileParser)专注于工具文件的管理,提供工具文件管理器的获取接口。签名验证与生成(helpers.py)包含文件 URL 签名的生成与验证逻辑,确保文件访问的安全性。文件管理器(file_manager.py)

2025-04-30 13:32:00 387

原创 【Dify(v1.x) 核心源码深入解析】errors、extension 和 external_data_tool 模块

通过对 Dify 中 errors、extension 和 external_data_tool 模块的深入剖析,我们不仅了解了其各个模块内部的精细结构和工作原理,还掌握了它们之间的关联与协同机制。这些模块为 Dify 应用提供了强大的错误处理、灵活的扩展能力和便捷的外部数据集成支持,是构建现代化、高性能软件系统的重要基石。希望本文的讲解能够帮助您更好地理解和运用 Dify,激发您在软件开发领域的更多创意和实践。

2025-04-24 13:27:58 206

原创 【Dify(v1.x) 核心源码深入解析】callback handler 和 entities 模块

Callback handler 是 Dify 中用于处理工具调用、代理行为和流程控制的核心组件。捕获工具调用的开始、结束和错误事件。记录工具的输入、输出和执行时间。提供调试信息和日志输出。支持扩展功能,如追踪工具调用的上下文和结果。Entities 模块定义了 Dify 中的各种数据结构和实体类,用于描述模型、提供者、工具和配置等。这些类是 Dify 的核心数据模型,提供了统一的接口和结构。

2025-04-23 14:28:22 94

原创 【Dify(v1.x) 核心源码深入解析】App 模块:Entities、Features 和 Task Pipeline

Dify 是一个功能强大的 AI 应用开发框架,它通过模块化设计和灵活的任务处理机制,帮助开发者快速构建智能应用。在这篇文章中,我们将深入解析 Dify 的三个核心模块:Entities(实体)、Features(功能)和 Task Pipeline(任务管道)。通过详细的代码解读和示例,帮助你全面理解 Dify 的架构设计和实现细节。Entities 是 Dify 中用于表示核心数据结构的模块。它定义了各种实体类,用于封装应用生成、工作流、消息等数据。

2025-04-23 13:27:30 188

原创 【Dify(v1.x) 核心源码深入解析】Apps 模块

Dify 的 Apps 模块通过工作流和任务管道实现了复杂业务逻辑的处理。它通过事件驱动的方式协调任务的执行,支持流式输出和阻塞模式。通过合理的数据库连接管理和任务优化,可以确保系统的高性能和高可用性。希望本文能帮助你深入理解 Dify 的 Apps 模块,并在实际项目中灵活应用。如果你有任何疑问或建议,欢迎随时与我们交流!

2025-04-22 17:25:57 484

原创 问题修复记录:Dify Docker Sandbox 指定Pip源 与 代码运行无权限 问题

在 volumes/sandbox/dependencies/python-requirements.txt 文件里面添加需要的包就行。这是由于 Dify 使用 sandbox 沙盒化容器执行工作流代码时,采用白名单策略对容器内的系统调用进行了限制,只允许运行特定的系统调用,从而确保不会出现意外的绕过。在 sandbox 的环境变量里添加了 PIP_MIRROR_URL,容器启动后就会在指定的源下载Pip包了。容器内是用 PIP_MIRROR_URL 环境变量指定源的。

2025-04-18 17:56:17 1165

原创 【Dify(v1.x) 核心源码深入解析】App Config 模块

Dify 的 App Config 模块是一个复杂但非常强大的配置管理系统。它通过一系列的管理类和实体类,实现了对模型配置、数据集配置、提示模板配置以及其他功能配置的全面管理。通过本文的详细解析,你应该能够理解 App Config 模块的架构设计、功能实现以及如何通过代码实现各种配置的转换和验证。希望这些内容能帮助你在使用 Dify 时更好地理解和利用这个模块。功能模块主要功能关键类模型配置管理管理模型的提供者、名称、模式和参数数据集配置管理管理数据集的检索策略、过滤条件等提示模板配置管理。

2025-04-17 14:26:05 206

原创 问题修复记录:CUDA 11 Flash-Attention 安装

另外,ABI两个版本的 flash_attn 包的区别在于它们的编译选项,特别是关于 cxx11 ABI(Application Binary Interface)的设置,这影响到包的二进制兼容性。CUDA 11 去 github releases 需要找具体的版本。

2025-04-17 11:30:14 512

原创 【Dify(v1.x) 核心源码深入解析】Agent 模块

Agent 模块是 Dify 中负责处理用户请求的核心组件。接收用户输入并解析请求。根据请求内容调用合适的工具或模型。生成响应并返回给用户。管理整个交互流程,包括工具调用、消息处理和状态管理。通过本文的详细解析,我们深入了解了 Dify 的 Agent 模块的架构设计和实现细节。Agent 模块通过灵活的策略、丰富的工具、高效的消息处理和状态管理,为开发者提供了一个强大的 AI 应用开发平台。希望本文能帮助你更好地理解和使用 Dify 的 Agent 模块。更智能的策略。

2025-04-15 14:02:23 977

原创 中医名医 AI 个人大脑(LLM)技术方案详解

随着人工智能技术的飞速发展,越来越多的领域开始探索如何将AI与传统行业深度融合。中医作为中国传统文化的重要组成部分,其传承与发展一直面临诸多挑战。《中医名医 AI 个人大脑(LLM)技术方案》旨在通过AI技术为每位名医打造个性化大脑,实现中医知识的沉淀、传承与创新。

2025-04-15 12:04:28 126

原创 【斯坦福】【ICLR】RAPTOR:基于树结构的检索增强技术详解

上图展示了 RAPTOR 树的构建过程。从叶节点(文本块)开始,通过递归地嵌入、聚类和摘要,构建出一个多层次的树状结构。每个父节点包含其子节点的摘要,从而形成了不同抽象层次的表示。RAPTOR 的核心思想是利用文本摘要来允许在不同尺度上进行检索增强,从而有效地处理长文档。文本分割与嵌入:将检索语料库分割成短文本块(约 100 个 token),并使用 SBERT(Sentence-BERT)对这些文本块进行嵌入,形成叶节点。聚类与摘要:对嵌入后的文本块进行聚类,然后使用语言模型对每个聚类生成摘要。

2025-03-28 11:51:48 1097

原创 RAG技术深度解析:从基础Agent到复杂推理Deep Search的架构实践

在自然语言处理领域,传统问答系统往往面临两大难题:如何突破模型知识边界?如何保障回答的可信度?RAG(Retrieval-Augmented Generation)架构应运而生。而当我们以工程视角实现RAG时,就需要一个标准化的载体——RAG Agent。

2025-03-07 13:18:55 1305

原创 DeepSeek-R1/Zero、RL GRPO以及蒸馏过程详解

传统方法:老师先教 1000 道例题(SFT 数据),学生模仿练习。R1-Zero 方法:直接扔给学生 100 万道题,配一台“自动批改机”。学生自己摸索解法,机器实时反馈对错。最终,学生总结出一套高效的解题套路,甚至超越老师教的答案。这就是 R1-Zero 的核心——让 AI 在“题海战术+自动批改”中自我顿悟。传统做法:召集全国名师手写答案 → 耗时十年,成本爆炸。AI 辅助做法Step1:请 10 位名师写 100 道标准答案(冷启动数据)。Step2。

2025-02-11 15:32:55 1816

原创 问题修复记录:Xinference部署 Embedding Model 服务偶发超时

用 Xinference 部署Embedding Model,正常来说一次调用在 0.0x s 就能返回了,但是总会调着调着突然有超时的情况(超时设置为 0.2s)。这里模型我是部署了2个实例,每次的2次超时是在不同实例上的。可以看到偶发的超时是有规律性的,每隔20次调用都会超时2次。

2025-01-26 13:46:37 300

原创 问题修复记录:Linux docker 部署 Dify,无法调用宿主机本地服务

使用docker compose启动Dify后,在其中配置本地xinference中的模型,报错:get xinference model extra parameter failed, url: http://127.0.0.1:9997/v1/models/bge-m3, error: HTTPConnectionPool(host=‘127.0.0.1’, port=9997): Max retries exceeded with url: /v1/models/bge-m3 (Caused by N

2025-01-23 12:41:33 1633

原创 构建高效大模型技术栈:从算力资源到算法应用的实践与思考

自加入新的团队以来,我有幸领导了大模型团队的技术框架建设工作。在这段时间里,我们构建了一个三层架构(L0-L2),旨在为复杂的产品和业务需求提供强有力的支持。本文将分享我们在这一过程中的经验、遇到的挑战以及未来的展望。

2025-01-20 13:18:41 1001

原创 【vLLM】使用PagedAttention 进行大型语言模型的高效显存管理

大型语言模型(LLM, Large Language Models)是人工智能领域的一种深度学习模型,它们通过处理大量的文本数据来学习语言的模式,并能完成诸如文本生成、翻译、问答等多种任务。这些模型通常包含数十亿个参数,需要相当大的计算资源来进行训练和服务(即推理或预测)。在服务阶段,模型的参数、中间计算结果(激活值)、以及键值缓存(KV cache)都需要占用显存空间。如上图所示,当在一个 NVIDIA A100 GPU 上部署一个拥有130亿参数的大型语言模型时的显存布局情况。

2025-01-05 17:05:35 1259

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000

2022-12-29

Spark机器学习回归模型数据集

为了阐述本章的一些概念,我们选择了bike sharing数据集做实验。这个数据集记录了bike sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。

2016-06-15

Spark机器学习文本处理数据集

为了说明概念,我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

2016-06-20

Spark机器学习推荐模型数据集

我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部 分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。

2016-06-18

Spark机器学习分类模型的数据集

考虑到推荐模型中的 MovieLens 数据集和分类问题无关,本章将使用另外一个数据集。这个 数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂 存在,很快就不流行了)还是长久(长时间流行)。

2016-06-15

jblas-1.2.4-SNAPSHOT

里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置

2016-06-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除