- 博客(655)
- 收藏
- 关注
原创 【LLM】GPT-OSS架构变化详解
GPT-OSS通过混合专家(MoE)架构实现高效的大模型运算,每个token仅激活少量专家模块,既保留大容量知识存储又控制计算成本。相比GPT-2,GPT-OSS采用RoPE位置编码、Swish/SwiGLU激活函数、分组查询注意力(GQA)和滑动窗口注意力等创新技术,显著提升模型性能与效率。这些改进使GPT-OSS在保持推理速度的同时扩展参数量,成为开放权重的大型语言模型范本,推动AI技术进步与应用落地。
2025-09-16 19:00:00
356
原创 【LLM】使用 Google ADK、Gemini、QDrant 和 MCP 构建深度研究系统
本文介绍了一个基于谷歌AgentDevelopmentKit开发、由Gemini2.0Flash驱动的多智能体研究助手系统。该系统整合了四类专业智能体(分类、规划、arXiv检索、网页搜索智能体),通过并行处理实现高效学术研究:1)分类智能体分析用户请求;2)规划智能体制定研究策略;3)arXiv智能体检索并分析50篇论文;4)网页搜索智能体获取最新动态。测试显示系统能在27秒内处理100篇论文和5个网络来源,生成涵盖理论基础的全面回答。未来可扩展异构数据工具、采用Gemini嵌入模型,并新增评审、专家等智
2025-09-12 19:15:00
1433
原创 【LLM】Transformer注意力机制全解析:MHA到MLA
Transformer架构中的多种注意力机制对比:MHA(多头注意力)通过独立处理查询/键/值实现高精度但计算成本高;MQA(多查询注意力)共享键值对降低计算量;GQA(群组查询注意力)通过分组查询提高长序列处理效率;MLA(多头潜在注意力)引入潜在嵌入压缩注意力空间,在效率与表现力间取得平衡。MLA尤其适合处理长序列和大规模数据,在保持全局上下文的同时显著降低计算复杂度,为NLP、CV等领域提供了更优的注意力解决方案。
2025-09-10 19:00:00
781
原创 【LLM】深入解析PyTorch分布式训练DDP机制
本文深入解析了PyTorch分布式数据并行(DDP)的核心机制。通过构建一个简化版DDP实现,逐步揭示了梯度同步、通信优化等关键技术:1) 基础DDP实现广播参数并使用全归约同步梯度;2) 通过梯度批处理减少通信次数;3) 异步通信与计算重叠降低延迟;4) 分桶机制结合反向传播顺序优化实现高效通信。文章还探讨了梯度累积等进阶优化技术,以及生产级DDP系统采用的梯度压缩、分片优化器等高级特性。这些机制共同构成了PyTorch实现高效分布式训练的技术基础,使其能够从单机多卡扩展到大规模集群训练。
2025-09-08 19:15:00
658
原创 【LLM】使用 Transformer 强化学习的 GRPO
本文介绍了HuggingFaces的TRL如何实现GRPO(组相对策略优化)和自定义奖励函数。GRPO是强化学习的一种变体,通过组内响应的相对优势来优化模型输出。文章首先概述了LLM训练的四个阶段:预训练、监督微调、专业化训练和基于奖励的强化学习,重点讲解了GRPO的工作原理及其与PPO的区别。随后详细展示了使用TRL实现GRPO的具体步骤,包括如何定义奖励函数(如控制输出长度、降低毒性等)并对Qwen模型进行微调。实验结果表明,GRPO能有效控制模型输出质量。最后总结了GRPO在提升模型推理能力和响应质量
2025-09-05 19:00:00
720
原创 【LLM】FastMCP v2 :让模型交互更智能
FastMCPv2:为大型语言模型打造的高效连接框架 FastMCPv2是一个创新的Python库,为大型语言模型(LLM)提供了标准化的外部连接方案。该框架通过"模型上下文协议"(MCP)实现,被形象地称为"AI的USB-C接口",使LLM能够安全便捷地访问各类公共资源、工具和提示服务器。 核心特性包括: 快速开发:通过简洁的API实现工具、资源和提示的快速部署 上下文感知:支持日志记录、进度报告和用户引导等交互功能 高级功能:包含LLM抽样、多服务器管理及完善的安
2025-09-04 19:15:00
2006
原创 【LLM】深入解析Transformer位置编码机制
本文系统解析了Transformer模型中的两种关键位置编码技术:正弦绝对位置编码和旋转位置嵌入(RoPE)。正弦编码通过多维正弦波组合为每个位置生成独特向量,利用波形频率差异实现位置区分,同时保留相对位置关系。RoPE则创新性地采用旋转矩阵对嵌入向量进行变换,将位置信息融入向量角度变化中。两种方法都实现了位置与语义信息的有效平衡,前者通过简单相加,后者通过几何变换。可视化分析表明,这两种编码方案都呈现位置信息集中在前维、语义信息保留在后维的特征分布模式。Rotary方法因其高效性已被Gemma、LLaMA
2025-09-03 19:15:00
659
原创 【LLM】使用 LoRA 对 Qwen/Qwen3-Embedding-0.6B 进行微调
本文介绍了如何使用LoRA和PEFT技术对Qwen3-Embedding-0.6B模型进行微调,以提升语义相似度检测能力。主要内容包括:1)安装必要依赖库;2)准备包含200组中文句对的训练数据集;3)加载基础模型并配置LoRA参数;4)定义嵌入提取和训练策略;5)实施微调过程;6)保存模型并对比测试。实验结果显示,微调后模型对相似句子的余弦相似度从0.83提升至0.96,验证了该方法的有效性。该方法特别适用于需要精准语义理解的应用场景。
2025-09-01 22:30:00
675
原创 【LLM】利用强化学习来构建自我进化的RAG系统
本文介绍了融合检索增强生成(RAG)与强化学习(RL)的智能系统。传统RAG仅基于相似度检索文档,存在冗余和答案质量差的问题。通过引入RL,系统能根据答案质量和多样性反馈优化检索策略,实现以下提升:1)选择更相关的文档;2)提高信息多样性;3)动态调整排名策略。文中详细展示了系统构建过程,包括环境设置、策略网络设计和训练流程。虽然在小规模合成数据上效果有限,但在大规模多样化数据中,这种RL-RAG系统能显著超越传统方法,实现越用越智能的检索效果。
2025-08-29 19:30:00
835
原创 【LLM】Transformer模型中的MoE层详解
本文介绍了Transformer中的混合专家(MoE)模型,重点分析了代码实现。MoE层通过门控网络将输入分配给多个专家网络(如128个FFN),每个token仅激活少量专家(如8个)。代码解析包括四个步骤: 1)输入通过门控层获得专家分数; 2)通过top-k和softmax选择活跃专家; 3)并行计算各专家输出; 4)加权汇总专家结果。这种稀疏激活机制能提升计算效率(如Mixtral8x7B模型仅激活部分参数),但需更多内存存储所有专家参数。
2025-08-28 19:30:00
905
原创 【LLM】OpenAI开源GPT级模型,120B及20B参数GPT-OSS
OpenAI开源了GPT-OSS系列大语言模型,包含120B和20B参数两个版本,采用混合专家(MoE)架构,支持128k上下文长度和工具调用功能。模型在数学推理、编程、多语言理解等基准测试中表现优异,可本地部署运行:120B版需80GB显存,20B版需16GB显存。OpenAI提供了完整的软件工具链支持,包括Hugging Face集成、vLLM服务器和Ollama支持,并允许用户进行微调。这一开源举措使开发者能构建离线AI应用,同时保持GPT级性能和企业级安全性。
2025-08-11 21:15:00
1119
原创 【LLM】扩散模型与自回归模型:文本生成的未来对决
本文对比分析了自回归(AR)和扩散(DLM)两种语言模型。AR模型通过顺序预测下一个token实现文本生成,具有流畅性优势但存在错误传播问题;扩散模型则通过多步去噪过程并行生成文本,支持全局纠错但计算成本较高。文章详细阐述了两者的数学原理、架构设计和训练推理流程,并指出混合模型可能成为未来趋势,结合AR的流畅性和扩散的全局一致性优势。当前AR模型仍占主导地位,但扩散模型在多样性生成和细粒度控制方面展现出潜力,两者的融合或将催生更强大的下一代语言模型。
2025-08-07 21:00:00
736
原创 【LLM】揭秘AI黑箱,现代大模型的架构真相
文章深入剖析了现代大语言模型(LLM)的架构演进,以DeepseekV3为例,揭示了前沿AI模型的核心机制。虽然基础仍是矩阵运算,但现代LLM已发展出复杂架构:1)采用BPE分词和7168维嵌入空间处理文本;2)使用带因果掩码的多头注意力机制和旋转位置编码(RoPE)捕捉上下文关系;3)通过混合专家系统(MoE)实现条件计算,在保持推理效率的同时扩展模型容量;4)堆叠61层Transformer模块构建深层网络。现代LLM的成功不仅依赖架构创新,还需海量数据(14.8万亿词条)、强化学习和强大基础设施支持。
2025-08-04 19:00:00
753
原创 【NLP】使用 LangGraph 构建 RAG 的Research Multi-Agent
本文介绍了一个基于LangGraph开发的多智能体RAG研究工具,旨在解决复杂查询处理问题。系统采用混合搜索和重新排序技术检索文档,并引入自我纠正机制(包括人工参与的幻觉检查)来提高响应可靠性。项目构建了包含主图和子图的工作流程,主图负责路由查询、生成研究计划和验证响应,子图专注于多查询生成和文档检索。实验表明,该系统在复杂查询处理上优于传统RAG方法,能够准确提取表格数据并避免幻觉。文章还讨论了Agentic RAG面临的技术挑战(如延迟和评估问题),并指出其在企业应用中的潜力。
2025-06-26 21:00:00
1077
原创 【NLP】将 LangChain 与模型上下文协议 (MCP) 结合使用
MCP(模型上下文协议)是一种开源协议,旨在解决大型语言模型(LLM)与外部数据源的隔离问题。它采用客户端-服务器架构,标准化了AI代理与外部系统的连接方式,支持开发者构建可复用的模块化连接器。通过提供通用接口和预构建服务器,MCP实现了LLM与工具/数据源的安全、可扩展交互,使AI应用从孤立系统转变为深度集成的智能代理。示例展示了如何利用MCP连接数学计算工具与LangGraph代理,验证了其在实际应用中的可行性,为AI工具链提供了统一的数据交互范式。
2025-05-28 22:00:00
1488
1
原创 【LLM】什么是 MCP&ACP&ACA
想象一个统一的代理平台,其中 A2A 处理代理之间的交互,MCP 管理工具和数据的访问,ACP 风格的运行时插件可用于边缘或离线场景。然后是 ACP,它采用了完全不同的方法。不同的供应商推出各自风格的 A2A 或 MCP,最终导致一片混乱——就像早期的 Web 服务一样,如果没有大量的粘合代码,任何事物都无法与其他事物进行通信。与面向云的协议(例如 A2A)或上下文路由协议(例如 MCP)不同,ACP 旨在实现本地优先、实时代理编排,具有最小的网络开销以及在共享运行时内部署的代理之间的紧密集成。
2025-05-06 19:00:00
117
原创 【LLM】为什么最新的 LLM 采用 MoE(专家混合)架构
混合专家 (MoE) 架构是一种神经网络设计,通过为每个输入动态激活一组称为专家的专用网络子集来提高效率和性能。门控网络确定要激活哪些专家,从而实现稀疏激活并降低计算成本。MoE 架构由两个关键组件组成:门控网络和专家。让我们来分解一下:从本质上讲,MoE 架构就像一个高效的交通系统,根据实时条件和所需目的地将每辆车(或在本例中为数据)引导至最佳路线。每个任务都会被路由到最适合处理该特定任务的专家或子模型。这种动态路由可确保为每项任务使用最有能力的资源,从而提高模型的整体效率和有效性。
2025-01-13 17:26:44
1611
原创 【LLM】如何提高 RAG 模型的性能
最有效的 RAG 系统是根据您的独特需求和目标量身定制的系统,以实现最佳性能,而不会影响整体效率。这允许模型捕获更准确的值。这些扩展已经提供了一种增强 LLM 功能的强大方法,允许 LLM 检索和整合最新信息,确保您的模型保持相关性和准确性。尽管在实施检索增强生成 (RAG) 系统时,利用最先进的 LLM 通常可以保证卓越的内容生成和分析能力,但选择最复杂的 LLM 并不总是最好的选择。- 使用编码器模型将查询编码为向量表示,编码器模型通常是预训练的语言模型,如 BERT 或其他基于转换器的模型。
2025-01-13 14:20:18
609
原创 【NLP】使用 PyTorch 从头构建自己的大型语言模型 (LLM)
如果我们在 n 维空间中绘制一个向量,看起来相似的物体(如狗和猫)将彼此靠近,而看起来不相似的物体(如学校和家庭)的嵌入向量将位于更远的地方。为此,我们将使用一种流行的标记器,称为 BPE 标记器,这是一种子词标记器,正在 GPT3 等模型中使用。:前馈网络使用深度神经网络来学习两个线性层(第一层有 d_model 节点,第二层有 d_ff 节点,根据注意力论文分配值)中嵌入向量的所有特征,并且将 ReLU 激活函数应用于第一线性层的输出,为嵌入值提供非线性,并应用 dropout 以进一步避免过度拟合。
2024-11-11 08:58:04
1612
原创 【NLP】2024 年十大 RAG 框架 Github
检索增强生成 (RAG) 已成为增强大型语言模型功能的强大技术。RAG 框架将基于检索的系统与生成模型的优势相结合,从而实现更准确、更情境化和更及时的响应。随着对复杂 AI 解决方案的需求不断增长,GitHub 上出现了许多开源 RAG 框架,每个框架都提供独特的功能和能力。RAG 框架有什么作用?RAG 工作流程(RAG) 是一种 AI 框架,它通过整合外部知识源来增强大型语言模型 (LLM) 的功能。
2024-11-08 14:26:55
2026
原创 【NLP】使用 SpaCy 通过 LLM 合成数据微调 NER 模型
现在,在这篇文章中,我们将更进一步,使用 SpaCy 训练各种 NER 模型,比较它们的性能,并检查它们在我们合成生成的数据集中识别实体的能力。中,我们探讨了如何使用 Qwen 生成合成数据,以自动化命名实体识别 (NER) 的注释过程。然后,我们将数据分成训练集 (80%) 和验证集 (20%),使我们能够在训练期间评估模型性能。对象对于训练 SpaCy 模型至关重要,因为它们封装了输入(原始文本)和预期输出(实体)。方法恢复训练,该方法初始化优化器。在这里,我们加载了 SpaCy 的预训练中文模型,
2024-11-08 09:59:18
1658
原创 【NLP】使用 SpaCy、ollama 创建用于命名实体识别的合成数据集
生成合成数据可以创建大型注释数据集,而无需耗时且昂贵的手动标记过程,从而可以快速训练用于各种 NER 应用程序的模型。示例充当“指令调整”的一种形式,向模型展示如何以特定方式响应,从而降低生成的输出中出现错误和不一致的可能性。在我们的案例中,使用多个输入文本示例与相应的 JSON 输出配对,向模型展示如何一致地识别和格式化城市名称。命名实体识别 (NER) 是自然语言处理 (NLP) 中的一项重要任务,用于自动识别和分类文本中的实体,例如人物、位置、组织等。接下来,我们创建一个查询 LLM 的系统提示。
2024-11-07 19:29:14
1656
1
原创 【NLP】利用 RAG 模分块技术提升文档处理效能
有效的分块,即将文档拆分为可管理的片段的过程,对于优化 RAG 系统的检索和嵌入步骤至关重要。通过利用 SBERT 和先进的平滑和聚类技术,这种方法比传统的文档分割方法有了显著的改进。此外,我们将介绍一种新颖的主题感知分块方法,该方法利用句子嵌入来识别文档中的主题转变。传统的分割技术(从简单的基于规则的方法到高级机器学习算法)都难以识别主题转换的精确点。通过采用这种方法,RAG 系统可以在其生成的内容中实现更高的准确性和相关性,使其更有效地完成复杂且知识密集型的任务。此方法非常适合需要连贯完整思想的任务。
2024-07-09 11:28:24
1524
原创 【NLP】LLM 和 RAG
在这里,我描述了我在过去几年中关于 RAG 系统如何发展的主要经验。分享Naive RAG、Advanced RAG 和 Modular RAG 框架之间的区别。
2024-04-02 16:33:38
2327
原创 【NLP】RAG 应用中的调优策略
检索增强生成应用程序的调优策略没有一种放之四海而皆准的算法能够最好地解决所有问题。本文通过数据科学家的视角审视检索增强生成(RAG)管道。它讨论了您可以尝试提高 RAG 管道性能的潜在“超参数”。与深度学习中的实验类似,例如,数据增强技术不是超参数,而是可以调整和实验的旋钮,本文还将介绍您可以应用的不同策略,这些策略本身不是超参数。本文涵盖以下按相关阶段排序的“超参数”。在RAG 管道的请注意,本文涵盖了 RAG 的文本用例。对于多模式 RAG 应用,可能需要考虑不同的因素。
2023-12-11 10:40:11
2000
原创 【NLP】如何管理大型语言模型 (LLM)
此外,LLM 编排框架提供强大的监控和错误处理机制,增强了基于 LLM 的应用程序的整体可靠性。LLM-Ops 是一个不断发展的领域。通过为 LLM 管理提供结构化且高效的方法,LLM 编排使开发人员能够构建更强大、可扩展且可靠的应用程序,利用这种尖端技术的变革力量。通过为 LLM 管理提供结构化且高效的方法,LLM 编排使开发人员能够构建更强大、可扩展且可靠的应用程序,利用这种尖端技术的变革力量。LLM 编排框架的选择取决于应用程序的特定需求、开发人员的首选编程语言以及对 LLM 管理的所需控制级别。
2023-12-07 09:56:17
1864
1
原创 【NLP】GPT 模型如何工作
例如,如果您的训练数据包含单词“car”,您可以向“c”行和“a”列中的单元格添加 1,然后向“a”行和“r”中的单元格添加 1柱子。文本生成的质量再次受到算法支持的输入标记数量的限制,需要新的突破。然而,语言模型需要有一个完整的可能遇到的标记列表,而这对于整个单词来说是不可行的——不仅因为字典中有太多单词,而且因为很难跟上领域的步伐——特定术语和发明的任何新词。最后,我们描述了 OpenAI 的三个最新的基于 Transformer 的 GPT 模型、每个模型的实现方式以及如何编写使用它们的代码。
2023-11-22 17:22:38
1359
原创 【NLP】培训LLM的不同方式
在大型语言模型(LLM)领域,存在多种具有不同手段、要求和目标的培训机制。由于它们有不同的用途,因此重要的是不要将它们相互混淆并了解它们适用的不同场景。在本文中,我想概述一些最重要的训练机制,包括预训练微调人类反馈强化学习 (RLHF)和适配器。此外,我将讨论提示的作用,提示本身不被认为是一种学习机制,并阐明提示调整的概念,它在提示和实际训练之间架起了一座桥梁。预训练预训练是最基本的训练方式,与您所知道的其他机器学习领域的训练相同。
2023-11-22 17:19:37
1050
原创 【NLP】LLM 中 100K 上下文窗口背后的秘密:所有技巧都集中在一处
具有条件计算的 COLT5 Transformer 层的概述。人们想要申请法学硕士的重要用例之一是“将大量自定义数据放入LLM”(与公司或特定问题相关的文档、各种异构文本等)并提出有关该特定数据的问题,不是LLM在培训期间看到的一些来自互联网的抽象数据。我学到了很多东西,我希望你也学到了,现在我们可以猜测这些具有数十亿参数的大型语言模型是如何在前所未有的 65-100K 令牌上下文窗口中进行训练的。次迭代,因为上下文长度变得更大(为了简单起见,我们假设它是线性的,根据任务的不同,它可能是高估或低估)。
2023-11-17 11:33:13
1757
原创 【NLP】理解 Llama2:KV 缓存、分组查询注意力、旋转嵌入等
是 Meta AI 的开创性作品,作为首批高性能开源预训练语言模型之一闯入了 AI 场景。值得注意的是,,尽管其尺寸只是其一小部分。您无疑听说过 LLaMA 令人印象深刻的性能,但您是否想知道是什么让它如此强大?图 1:原始 Transformer 和 LLama 之间的架构差异检查图 1 揭示了从原始 Transformer 到突破性的 LLaMA 架构的深刻转变。LLaMA 2.0 牢固地植根于 Transformer 框架的基础,但它引入了独特的创新——SwiGLU和。
2023-11-13 13:58:56
4667
原创 【NLP】大型语言模型,ALBERT — 用于自监督学习的 Lite BERT
介绍近年来,大型语言模型的发展突飞猛进。BERT 成为最流行、最高效的模型之一,可以高精度地解决各种 NLP 任务。BERT 之后,一系列其他模型随后出现,也表现出了出色的效果。显而易见的趋势是,。深度学习研究表明,此类技术通常会带来更好的结果。不幸的是,机器学习世界已经解决了有关法学硕士的几个问题,可扩展性已成为有效训练、存储和使用它们的主要障碍。因此,最近开发了新的LLM来解决可扩展性问题。在本文中,我们将讨论 2020 年发明的 ALBERT,其目标是显着减少 BERT 参数。
2023-11-13 10:49:58
947
1
原创 【AI】自回归 (AR) 模型使预测和深度学习变得简单
通过为问题选择正确的工具,无论是基本的 AR 模型还是更复杂的模型,从业者都可以做出更准确的预测,并从时间序列数据中发现更深入的见解。深度学习中的自回归是指应用深度神经网络对序列数据进行建模和预测,其中序列中的当前值取决于先前的值。总体而言,自回归模型是时间序列分析和 NLP 的基本概念,为理解、预测和生成序列数据提供了强大的工具。在接下来的部分中,我们将从 AR(p) 模型的基础知识和自回归系数的作用开始,更深入地研究自回归模型的机制。自回归建模的核心是 AR(p) 模型,其中“p”代表模型的阶数。
2023-11-10 11:22:51
8293
1
原创 【AI】生成模型变得简单:了解它们的工作原理和不同类型
这些模型是创意人工智能的核心,它们有能力生成各种内容,从栩栩如生的图像和引人入胜的文本到令人着迷的音乐和创新的艺术作品。在这篇博文中,我们将踏上探索生成模型的迷人世界的旅程,揭开其复杂的内部运作机制并了解其非凡的潜力。生成器的目标是生成与真实数据无法区分的数据,而鉴别器的任务是成为区分真实数据和生成数据的专家。例如,在文本生成中,每个单词都是根据其前面的单词生成的。我们将深入研究生成模型的内部工作原理,提供可供使用的模型列表,讨论它们的挑战和局限性,并探索有望突破人工智能创造力界限的令人兴奋的未来趋势。
2023-11-10 11:11:43
1366
翻译 【NLP】DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 为LLM生成高通量文本
一、简介GPT-4 和 LLaMA 等大型语言模型 (LLM) 已成为服务于各个级别的人工智能应用程序的主要工作负载。从一般聊天模型到文档摘要,从自动驾驶到软件堆栈每一层的副驾驶,大规模部署和服务这些模型的需求猛增。虽然 DeepSpeed、PyTorch 等框架可以在 LLM 训练期间定期实现良好的硬件利用率,但这些应用程序的交互性和开放式文本生成等任务的较差算术强度已成为现有系统中推理吞吐量的瓶颈。为此,由 PagedAttention 提供支持的和等研究系统显着提高了 LLM 的推理性能。
2023-11-10 11:00:29
1792
2
原创 【NLP】特征提取: 广泛指南和 3 个操作教程 [Python、CNN、BERT]
通过使用预先训练的 CNN 模型进行特征提取,您可以受益于该模型自动学习和捕获信息丰富的图像特征的能力。此外,随着 NLP 研究的不断发展,预训练的语言模型因其提供丰富的上下文嵌入的能力而受到欢迎,并显着提高了各种 NLP 任务的现有技术水平。深度学习模型,特别是用于图像数据的卷积神经网络 (CNN) 和用于文本等序列数据的循环神经网络 (RNN),可以学习数据中复杂的模式和表示。总之,特征提取是数据预处理和机器学习的基本步骤,在提高模型的质量、可解释性和性能方面发挥着至关重要的作用。
2023-11-07 15:47:59
10545
3
原创 【NLP】什么是语义搜索以及如何实现 [Python、BERT、Elasticsearch]
语义搜索是一种先进的信息检索技术,旨在通过理解搜索查询和搜索内容的上下文和含义来提高搜索结果的准确性和相关性。总体而言,NLP 语义搜索提供了更复杂和上下文感知的搜索功能,使其在各种应用中都很有价值,包括网络搜索引擎、企业搜索、电子商务、聊天机器人和虚拟助理,在这些应用中,理解和满足用户的意图至关重要。与传统方法相比,BERT 的上下文理解可以显着提高搜索结果的质量。自然语言处理(NLP)上下文中的语义搜索是指应用NLP技术通过理解搜索查询和正在搜索的内容的含义和上下文来增强搜索结果的准确性和相关性。
2023-10-30 11:11:06
6704
2
原创 【NLP】20 个基本的文本清理技术
NLP 中的文本清理是什么?文本清理,也称为文本预处理或文本数据清理,正在准备原始文本数据并将其转换为更干净、更结构化的格式,以用于分析、建模或其他自然语言处理 (NLP) 任务。它涉及各种技术和程序,从文本文档中去除噪声、不一致和不相关信息,使数据更适合文本分析、情感分析、文本分类和机器学习等下游任务。文本清理的主要目标是什么?文本清理是任何文本分析或 NLP 项目中的关键步骤。清洗后的文本数据的质量直接影响后续分析或建模任务的准确性和有效性。
2023-10-09 17:09:14
5470
3
翻译 【LLM】低成本进行半天的训练可产生与主流大型模型、开源且无商业的特定领域 LLM 解决方案类似的结果
在常见的英语评测排名中可以观察到,在MMLU排名中,Colossal-LLaMA-2-7B-base在低成本持续预训练的支持下,克服了灾难性遗忘的问题。用户只需要上传自己的数据进行微调,并且可以将微调后的模型以API的形式部署。因此,在兼顾训练质量和效率的情况下,经过大量实验,Colossal-AI团队决定将LLaMA-2的词汇量从原来的32,000个单词扩大到69,104个。纵观整个训练损失记录,很明显,在利用 Colossal-AI 系统的成本效益功能的同时,模型的收敛性也得到了很好的保留。
2023-09-27 17:06:41
514
原创 【LLM】如何使用单个GPU 微调 Llama2
自然语言处理领域通过 ChatGPT 等大型语言模型 (LLM) 取得了令人难以置信的进步。然而,这些模型都有其局限性。他们可能会提出隐私问题,遵守一套固定的规则,并仅限于最后一次培训的日期。PaLM 和 GPT-3.5 等预训练 LLM 的另一个限制不是。这意味着开发人员和研究人员无法访问模型的内部工作原理,从而限制了他们根据特定用例微调和定制模型的能力。幸运的是,新时代已经到来,是Meta推出的开源LLM,它允许,减轻隐私问题并实现个性化的AI体验。此外,创新的。
2023-09-14 09:36:40
2150
3
原创 【LLM】微调LLM:LoRA 还是全参数?Llama 2 的深入分析
在本文中,我将全参数微调与 LoRA 进行比较,并回答有关这两种技术的优缺点的问题。使用 LoRA 涉及服务效率和模型质量之间的权衡,这根据手头的具体任务而变化。此外,我还提供有关如何通过智能提示技术稳定 LoRA 训练的见解。进一步表明,采用较低的学习率可以提高所得模型检查点的可靠性。近几个月来,开源LLM与 OpenAI 的专有模型展开了一场竞赛。提高开源 LLM 性能的一种流行策略是全参数微调。在该方法中,所有模型的参数都被优化。
2023-09-08 14:35:34
4672
2
Helsinki-NLP/opus-100(en-zh)
2024-11-08
百度、马蜂窝和大众点评数据集(情感分析)
2023-06-29
百度、马蜂窝和大众点评数据集(情感分析)
2023-06-29
中文常用停用词表(stopwords)
2023-06-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人