• 博客(99)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 从依赖外部提示的显式思维链(CoT),到内部自洽的内化推理(Internalized Reasoning)

这种演进标志着LLM从“鹦鹉学舌”迈向真正的。,但完全内化复杂推理(如数学证明)仍需突破。

2025-08-09 17:09:40 287

原创 计算机系统设计中都有什么任务~计算密集~IO密集~逻辑密集等

摘要:任务按资源需求可分为逻辑密集(如编译器分析)、计算密集(如AI训练)、I/O密集(如高并发Web)、内存密集(如实时数据库)、通信密集(如分布式系统)和存储密集(如视频存储)。各类任务优化方向不同,如逻辑任务减少分支、计算任务并行化、I/O任务异步处理等。实际场景多为混合型(如AI推理=计算+内存密集),需通过性能剖析和资源隔离针对性优化。

2025-08-09 16:49:32 478

原创 在CoT中为什么仅用方程式提示不够

摘要: 研究表明,仅用方程式提示在简单数学问题(如单步计算)中有效,但在复杂问题(如多步推理)中易导致语义丢失和符号歧义。思维链(CoT)通过分步解析和自然语言描述,能更好地保持语义关联,隔离错误,更贴近人类推理过程。工程上需根据问题复杂度选择方法:单步用方程式,多步用CoT,混合型可结合两者优势。未来可优化混合提示策略和错误分析工具,以提升模型在复杂语义任务中的表现。

2025-08-09 11:46:42 294

原创 关于CoT中的模型缩放曲线对性能影响的理解

摘要: "缩放曲线平坦"指语言模型性能随规模扩大而提升缓慢的现象。研究表明,当模型进入性能饱和区(如>100B参数),普通提示效果改善有限,而思维链(CoT)提示仍能显著提升表现。例如,540B参数的PaLM模型在数学题测试中,普通提示仅提升3%,而CoT提示提升39%。根本原因是CoT能突破对数增长限制,实现幂律增长。工程应用中,小模型应优化普通提示,大模型则需采用CoT以最大化性能收益。

2025-08-09 11:40:34 637

原创 提示工程的核心作用

将人类意图“翻译”为模型可高效执行的指令。:无需训练即可激发模型能力。:效果受众多因素非线性影响。(如因果推理链设计)与。(如语言风格适配)。

2025-08-09 11:32:37 603

原创 浅试A2A

文章摘要 Agent2Agent (A2A) 协议是由谷歌提出的开放标准,旨在实现不同AI Agent系统之间的互操作性。该协议通过统一的通信方式,使不同框架或供应商构建的Agent能够相互发现、协作完成任务。文档通过三个数学计算Agent(正弦、余弦、正切)的示例展示A2A协议实现:每个Agent都注册特定数学函数作为技能,并通过HTTP端口提供服务;客户端通过AgentNetwork管理多个Agent,实现任务分发。A2A与MCP协议互补,前者关注Agent间协作,后者增强单个Agent能力。

2025-08-08 23:52:29 702

原创 为什么提升模型尺度可以提升模型的CoT能力

摘要:研究发现,大语言模型的思维链(CoT)推理能力具有显著的涌现特性,当参数规模超过约100亿时才会显现。小模型使用CoT反而会降低性能,而百亿级以上的模型在多步推理、语义消歧和错误抑制方面表现更优。分析显示,模型规模提升能显著减少语义理解错误(下降62%)和步骤缺失(减少58%)。尽管规模是关键因素,但需配合适当的提示工程(如Few-shot示例)才能有效激活CoT能力。该研究揭示了LLM能力增长的非线性规律,为模型开发提供了重要方向。

2025-08-08 23:32:12 652

原创 《论文阅读》传统CoT方法和提出的CoT Prompting的区分

摘要:本文提出Chain-of-Thought(CoT)Prompting方法,通过设计包含推理步骤的提示模板,无需微调即可激发大语言模型的推理能力。相比传统方法(需标注大量训练数据或仅展示输入-输出对),CoT Prompting仅需3-5个示范样例,在100B+参数模型上展现出显著效果(如GSM8K数学题准确率从17%提升至56%)。其创新性在于将推理能力转化为提示工程问题,实现跨任务的零样本推理,大幅降低计算成本和数据需求。该方法揭示了模型规模与涌现能力的关系,为复杂推理任务提供了通用解决方案。

2025-08-08 15:37:00 753

原创 使用LLM进行评分时的关键局限性

摘要:LLM自动评分存在两大问题:1)评分集中在中间值(如3分),导致低方差和与人类评判低相关;2)仅输出整数评分,无法区分文本细微差异。解决方案包括细化评分标准、概率加权法和两阶段评估等。实验表明,优化方法可显著提升评分方差(0.51→1.27)和相关性(0.62→0.79)。最佳实践需结合算法改进与评估流程优化,以逼近人类评判的灵敏度。 (字数:149)

2025-08-08 10:25:25 816

原创 关于G-Eval的form-filling paradigm理解

摘要:G-EVAL框架采用表单填写范式,通过结构化评估输出(如JSON格式)替代传统概率或自由文本方法。该范式强制模型按预定标准输出评分和注释,提升评估一致性和可解释性。其核心优势包括规避概率偏差、支持多维度独立评分,并通过CoT推理增强评估逻辑。技术实现需设计特定提示词,控制输出格式与离散评分。相比GPTScore类方法,表单范式更适用于标准化评估场景,但对评估标准设计质量敏感。(150字)

2025-08-08 00:35:54 343

原创 关于基于大模型评估方法的自增强循环(Self-reinforcing Loop)风险

**摘要:**研究发现,使用大语言模型(LLM)作为评估指标时,可能产生自增强循环风险——LLM更倾向给自身生成文本打高分,导致优化过程中不断强化自身偏好,丧失人类文本的多样性。根源在于训练数据偏差、封闭评估系统和概率建模缺陷。解决方案包括混合人类评估信号、对抗训练和基于人类偏好的校准。最佳实践建议采用多样化指标、动态权重调整和隔离测试集。关键是要打破封闭循环,结合人类评估信号,发展真正理解能力的评估模型。

2025-08-08 00:24:54 538

原创 MCP (Model Context Protocol) 与 HTTP API:大模型时代的通信新范式

MCP(Model Context Protocol)是一种针对大模型交互优化的新型通信范式,与HTTP API形成对比。HTTP API作为无状态请求-响应协议,每次交互都需要完整传输上下文,在大模型长对话场景中效率较低。而MCP采用会话导向设计,通过上下文ID和增量更新机制,允许模型在多轮对话中维护状态,仅传输变化的上下文片段。这种设计显著减少了冗余Token传输,提升了交互效率,特别适合需要持续上下文管理的LLM应用场景。虽然MCP增加了实现复杂度,但为长上下文对话、持续学习等场景提供了更优的解决方案

2025-07-25 18:57:45 984

原创 RAG的5种分块策略

摘要: 文本分块(Chunking)是大模型处理长文本的关键步骤,需根据需求选择合适策略。固定大小分块简单高效但可能破坏语义;语义分块基于标点或嵌入相似度保持语义连贯;递归分块分层切分,兼顾结构与大小;基于文档结构的分块利用标题、段落等逻辑单元,最大化保留原义。无通用最优策略,需结合文本类型(松散/结构化)、任务需求(检索/生成)及计算资源综合选择。例如,RAG系统优先语义分块,而快速原型可采用固定分块。

2025-07-23 15:18:29 797

原创 python-pptx 的layout 布局

在 PowerPoint 中,决定了幻灯片的占位符(如标题、内容、图片等)的排列方式。提供了对布局的编程控制。通过。

2025-07-18 21:06:57 333

原创 LangChain 学习项目代码

"LangChain学习项目提供了一系列示例代码,帮助开发者掌握LangChain框架。项目包含从LLM基础、提示词模板到智能体、文档检索等10个模块的渐进式学习内容。每个示例都有详细注释,建议按编号顺序学习。核心功能包括LLM接口、提示词管理、链式组件、记忆状态等。使用前需安装依赖并配置API密钥。该项目适合希望系统学习LangChain的开发者。"

2025-07-16 15:42:22 161

原创 LangChain中提供的检索方法

LangChain提供了多种检索方法以适应不同场景需求。基于相似度的检索(如余弦相似度)是基础方法,可返回相关文档及相似度分数。为平衡相关性与多样性,最大边际相关性(MMR)算法确保结果覆盖面更广。增强检索策略包括多查询检索(提高召回率)、上下文压缩检索(减少令牌数量)、父文档检索(分层检索)和时间加权检索(优先最新结果)。基于代理的检索(如SelfQueryRetriever)支持复杂查询转换。此外,语义路由器可动态选择最适合的检索器,实现智能知识库管理。这些方法共同优化了检索效果与效率。

2025-07-16 15:32:25 743

原创 LangChain 数据检索(Retrieval)

摘要:大型语言模型(LLM)的知识受限于训练数据,无法获取实时或特定领域信息。数据检索(Retrieval)技术通过关键组件解决这一问题:文档加载器从多种数据源提取内容,文本分割器将长文档切分为语义完整的片段,嵌入模型将文本转换为向量表示以支持相似度搜索。典型流程包括数据加载、分割、向量化存储和检索,最终增强LLM生成能力。该技术拓展了LLM的应用边界,使其能结合外部知识库提供更精准的响应。

2025-07-16 10:16:54 895

原创 LangChain 内存(Memory)

摘要: 大型语言模型(LLM)本身无状态,无法记忆历史对话。LangChain通过内存机制(如ConversationBufferMemory)存储对话历史,使LLM能理解上下文。其核心流程包括保存、加载历史并注入到Prompt中。基础内存类型ConversationBufferMemory会存储全部历史,但可能导致提示过长;改进方案ConversationBufferWindowMemory仅保留最近N轮对话,优化上下文长度与成本。代码示例展示了如何利用这两种内存实现多轮对话,通过MessagesPlac

2025-07-12 23:36:41 505

原创 Agent 设计模式

大型语言模型(LLM)的Agent设计模式包括四种核心模式:工具使用模式(调用外部工具扩展能力)、思考-行动模式(结合推理与工具使用的循环)、反思模式(评估任务结果并自我改进)以及规划模式(分解复杂任务为子任务)。这些模式通过赋予LLM规划、反思、工具调用和协作能力,使其能够处理更复杂的智能任务。文中提供了每种模式的流程图和代码示例,展示了从基础工具调用到多轮反思优化的完整Agent设计思路。这些模式可单独使用或组合应用,为构建高效AI系统提供方法论支持。

2025-07-12 22:59:24 416

原创 LangChain 代理(Agents)学习

LangChain代理核心机制解析 LangChain中的代理(Agents)赋予语言模型自主决策能力,通过"思考-行动-观察"循环(TAB)完成复杂任务。其核心组件包括: TAB循环机制:模型持续执行思考决策、调用工具、观察结果的迭代过程 工具系统:通过@tool装饰器将函数转化为代理可调用的工具,包含名称、描述和执行逻辑 ReAct代理模式:结合推理(Reasoning)和行动(Acting),模型生成包含思考过程的结构化输出 记忆功能:通过内存模块保存对话历史,实现上下文感知的持续

2025-07-12 21:23:43 360

原创 LLM 不知道答案,但是知道去调用工具获取答案?

摘要: 大型语言模型(LLM)调用工具并非因其“知道”正确答案,而是通过模式识别与指令遵循实现。当面对超出其知识边界或低置信度的问题(如时效性事实),LLM会匹配工具描述(如搜索工具的功能说明),并遵循结构化提示(如ReAct框架)调用工具。这种机制使其避免随意生成错误答案,转而依赖外部工具获取可靠信息。代理框架的核心是为LLM提供决策逻辑和执行能力,使其像遵循指令的“学生”优先选择工具而非猜测。关键在于: 识别问题类型 评估自身知识局限性 匹配工具用途 严格遵循提示指令。

2025-07-12 21:21:29 337

原创 LangChain 与 LlamaIndex:RAG 项目中的双雄对比

RAG(检索增强生成)是提升大语言模型应用的关键技术,LangChain和LlamaIndex是两大主流框架。LangChain强调模块化编排,通过LCEL将RAG流程组件化连接,适用于复杂应用开发;而LlamaIndex采用"数据优先"理念,专注于构建高效知识索引和智能查询引擎,优化数据检索。两者在RAG实现上各具特色:LangChain灵活通用,支持多种LLM应用场景;LlamaIndex则在数据处理和检索环节更高效。开发者可根据项目需求选择框架——LangChain适合需要高度定制

2025-07-12 20:46:12 493 1

原创 LangChain 的链(Chain)

链(Chains)是LangChain的基石,它允许开发者将多个独立的组件连接在一起,形成一个有向无环图(DAG),从而构建出功能更强大、更复杂的LLM驱动型应用。一个链可以是一个简单的顺序执行流程,也可以是包含条件逻辑、并行执行的复杂工作流。

2025-07-12 17:13:28 453

原创 一种新的参数高效微调方法-LoRI

这篇论文提出了一种新的参数高效微调(PEFT)方法,名为 LoRA with Reduced Interference (LoRI)。LoRI 旨在解决传统 LoRA 的局限性

2025-06-21 16:24:08 399

原创 DeepSpeed 深度学习学习笔记:高效训练大型模型

DeepSpeed是一个针对大型深度学习模型训练优化的开源库,由微软开发。它通过核心技术ZeRO(零冗余优化器)系列解决了训练千亿参数模型时的显存瓶颈问题。ZeRO分为三个阶段:Stage 1(优化器状态分片)可节省约4倍显存,Stage 2(梯度分片)共节省7倍显存,Stage 3(参数分片)实现最大显存优化。此外,ZeRO-Offload技术可将部分计算卸载到CPU/硬盘。DeepSpeed还提供高效的混合精度训练、通信优化和易用API,支持从单GPU到数千GPU的弹性扩展,使大规模模型训练更加高效和可

2025-06-20 15:02:54 1166

原创 QLoRA (Quantized Low-Rank Adaptation)浅析

QLoRA:高效大模型微调方法 QLoRA(Quantized Low-Rank Adaptation)是一种创新的模型微调技术,在保持LoRA参数效率的基础上,通过三项关键技术显著降低显存需求:1)采用4-bit NormalFloat量化预训练模型权重;2)对量化参数进行二次量化(Double Quantization)进一步节省内存;3)引入分页优化器管理优化器状态。这种方法能在单张消费级GPU(如24GB显存的RTX 3090)上微调650亿参数的大模型,同时保持接近全参数微调的性能。QLoRA通过

2025-06-19 21:28:38 1011

原创 LoRA 浅析

LoRA是一种参数高效的微调方法,通过冻结预训练语言模型的权重,仅训练新增的低秩矩阵来减少计算资源。其原理是将线性层分解为Wx+BAx,其中BA是远小于原始矩阵的低秩矩阵。LoRA在微调时只训练A和B矩阵,推理时可合并或单独计算。实现中包含缩放系数调节影响力,经验表明设为秩的2倍效果最佳。相比全参数微调,LoRA资源消耗更少,但在需要大改的任务上性能可能略降。

2025-06-19 16:55:02 366

原创 LoRA 与 CoT 冲突吗

摘要: CoT(思维链)与LoRA微调可能存在目标冲突:CoT强调逐步推理,而LoRA侧重特定任务格式输出。若微调数据不含CoT轨迹,模型可能丧失推理能力。解决冲突的关键在于明确目标: 需要CoT能力:用含推理步骤的数据微调LoRA,使模型内化思考过程; 仅需简洁输出:用无CoT数据微调LoRA,推理时分离CoT步骤(如两阶段处理:先用通用模型生成CoT,再用LoRA模型格式化输出)。二者可协同——CoT作为推理策略,LoRA作为高效训练工具,需根据任务需求灵活结合。

2025-06-19 16:16:20 614

原创 【番外】 AI 时代应具备的四大核心能力

培养“AI 思维”:理解不同 AI 的能力边界和最佳应用场景。这要求我们不仅要理解 AI 能做什么,更要理解它不能做什么,以及在什么情况下使用哪种类型的 AI 模型能达到最佳效果。发展“整合力”:将 AI 能力与人类洞察有机结合。强调人机协作是关键,AI 负责处理重复性和复杂计算,人类提供创造性思维、伦理判断和高阶策略。提升“引导力”:能够准确地引导 AI 完成任务。这意味着人类需要掌握与 AI 交互的艺术和科学(例如提示工程),清晰地表达需求,确保 AI 按照预期执行。

2025-06-17 23:43:01 860

原创 工作流和Agent 的区别与联系

本文对比了工作流(Workflow)和智能体(Agent)的概念与区别。工作流是预定义、结构化的任务序列,强调流程控制和自动化执行;智能体则是具有感知、推理和行动能力的自主实体,侧重动态决策和环境适应。二者都可通过LangGraph实现:工作流用于构建确定性流程,智能体则作为其中的决策单元。关键区别在于,工作流关注"怎么做",智能体解决"谁来做"和"如何自主决策"。大模型时代下,系统设计正从固定工作流向灵活智能体演进。LangGraph作为统一框架

2025-06-17 11:37:29 554

原创 LangGraph 智能体中 LLM 节点与工具的协作深度解析

本文摘要: LangGraph智能体中LLM节点的工具调用机制包含五个核心环节:1)通过JSON Schema规范工具定义(名称、描述、参数);2)通过提示工程将工具信息嵌入LLM上下文;3)解析LLM输出的结构化调用请求;4)基于图结构进行条件路由;5)状态管理维护上下文。具体实现时,需用@tool装饰器定义工具函数,通过bind_tools()方法将工具绑定到LLM,再由ToolExecutor解析和执行工具调用。整个过程强调工具描述的准确性和参数schema的规范性,LLM会根据输入自动判断是否需要发

2025-06-16 14:55:42 693

原创 LangGraph-example 学习

图配置此处可以定义图的参数信息,例如 LLM 等信息图定义# 定义一个图,StateGraph是我们主要使用图定义的类,此处参数传入# 整个图的状态以及图配置信息# 在该图中可以体现cycle为此处,即大模型与工具的交互# 严谨一些讲应该是大模型参与的角色就可能有交互,这也是LG的最大意义# 为了可以实现更好的应用效果,我们需要通过大模型的加入,但是大模型的加入。

2025-06-15 17:47:56 398

原创 LangGraph 深度学习笔记:构建真实世界的智能代理

本文介绍了LangGraph框架的核心概念及其在构建智能代理中的应用。主要内容包括: LangGraph的核心组件: 状态图(StateGraph)作为应用程序蓝图 节点(Nodes)作为独立执行单元 边(Edges)控制数据流和工作流程 状态管理和持久化机制 LangGraph的优势: 支持循环决策流程(ReAct模式) 清晰的代理决策流结构 强大的可观测性和调试能力 状态持久化和恢复功能 构建流程: 定义应用状态 创建功能节点 构建状态图 编译和运行 文章通过一个多代理聊天助手案例,展示了LangGra

2025-06-15 01:22:58 361

原创 【浅谈】Agent 的存在具有什么意义

Agent 的核心价值在于将 LLM 的强大语言理解和生成能力,与外部工具的行动能力以及持久的记忆能力相结合,从而创造出能够自主思考、自主行动、自主学习的智能体。它突破了传统 LLM 的局限,将人工智能从被动响应推向了主动解决问题的新阶段,预示着 AI 在自动化、智能化和通用化方向上迈出了重要一步。

2025-06-13 19:50:00 741

原创 Agent 处理流程

Agent 源于研究行为的强化学习,而大模型源于研究知识的深度学习

2025-06-13 19:02:23 634

原创 【RAG 项目实战】法律条文助手

通过这个项目,我们不仅构建了一个基于开源技术栈的劳动合同法法律助手,更重要的是,它为我们深入理解 RAG 系统的原理、构建流程以及性能优化提供了宝贵的实践经验。

2025-06-13 13:37:53 1207 2

原创 Streamlit 笔记

Streamlit 是一个用于快速构建数据应用的 Python 库,通过简洁代码即可创建交互式 Web 应用。主要特点包括:简单易用、实时更新、支持多种交互组件(如按钮、滑块、图表等)和机器学习模型集成。安装时若遇到 cmake 或 pyarrow 问题,建议使用 conda 安装依赖。基本用法包括创建文本框、按钮、数字输入框等组件,可通过 streamlit run 命令运行应用。它还支持数据可视化、文件上传、缓存优化等功能,并能构建多页应用。典型应用场景包括展示数据框、生成图表等,是数据科学家快速开发原

2025-06-13 11:09:54 809 2

原创 Chroma 向量数据库学习笔记

Chroma 是一个开源的嵌入式向量数据库。它主要用于存储和检索嵌入向量,这些向量通常由大型语言模型 (LLM) 或其他机器学习模型生成,用于表示文本、图像或其他类型数据的语义信息。Chroma 的设计目标是易于使用、轻量级、且专为 LLM 应用优化。

2025-06-12 14:03:42 811

原创 LlamaIndex 学习笔记

LlamaIndex学习笔记摘要 LlamaIndex(原GPT Index)是连接私有数据与大型语言模型(LLM)的框架,解决LLM无法直接访问最新/专有数据的问题。其核心流程分为四阶段: 预处理:解析PDF/Word等文档,分块处理并生成带元数据的节点; 索引构建:通过嵌入模型创建向量/关键词/图谱等混合索引; 查询处理:多策略检索(向量相似度+关键词匹配),筛选相关节点; 响应生成:结合LLM合成答案(紧凑模式/树状汇总等)。系统还支持持续优化索引与检索策略。适用于需增强LLM领域知识的应用场景。

2025-06-12 11:06:05 889

原创 RAG 处理流程

本文介绍了RAG(检索增强生成)系统的处理流程与关键问题。系统首先将用户问题编码为向量,通过检索器从知识库中获取相似文档,可选重排序后输入问答模型生成答案。主要挑战在于嵌入模型不一致问题:知识库编码和查询编码若使用不同模型会导致检索质量下降。解决方案包括统一嵌入模型或直接使用问答模型嵌入层。流程分为检索阶段(向量空间)和生成阶段(文本空间),其中向量仅用于检索,生成阶段输入为纯文本。典型组件包括嵌入模型(如text-embedding-ada-002)、检索器(如FAISS)、重排序模型(如cohere-r

2025-06-11 22:23:55 1115

Aspose.Words.18.11.0.nupkg

Aspose.Words.18.11.0.nupkg使用Aspose.words.dll引用应该安装的NuGet包

2019-09-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除