成都犀牛-CSDN博客

原创从依赖外部提示的显式思维链（CoT），到内部自洽的内化推理（Internalized Reasoning）

这种演进标志着LLM从“鹦鹉学舌”迈向真正的。，但完全内化复杂推理（如数学证明）仍需突破。

2025-08-09 17:09:40 287

原创计算机系统设计中都有什么任务～计算密集～IO密集～逻辑密集等

摘要：任务按资源需求可分为逻辑密集（如编译器分析）、计算密集（如AI训练）、I/O密集（如高并发Web）、内存密集（如实时数据库）、通信密集（如分布式系统）和存储密集（如视频存储）。各类任务优化方向不同，如逻辑任务减少分支、计算任务并行化、I/O任务异步处理等。实际场景多为混合型（如AI推理=计算+内存密集），需通过性能剖析和资源隔离针对性优化。

2025-08-09 16:49:32 478

原创在CoT中为什么仅用方程式提示不够

摘要：研究表明，仅用方程式提示在简单数学问题（如单步计算）中有效，但在复杂问题（如多步推理）中易导致语义丢失和符号歧义。思维链（CoT）通过分步解析和自然语言描述，能更好地保持语义关联，隔离错误，更贴近人类推理过程。工程上需根据问题复杂度选择方法：单步用方程式，多步用CoT，混合型可结合两者优势。未来可优化混合提示策略和错误分析工具，以提升模型在复杂语义任务中的表现。

2025-08-09 11:46:42 294

原创关于CoT中的模型缩放曲线对性能影响的理解

摘要： "缩放曲线平坦"指语言模型性能随规模扩大而提升缓慢的现象。研究表明，当模型进入性能饱和区（如>100B参数），普通提示效果改善有限，而思维链（CoT）提示仍能显著提升表现。例如，540B参数的PaLM模型在数学题测试中，普通提示仅提升3%，而CoT提示提升39%。根本原因是CoT能突破对数增长限制，实现幂律增长。工程应用中，小模型应优化普通提示，大模型则需采用CoT以最大化性能收益。

2025-08-09 11:40:34 637

原创提示工程的核心作用

将人类意图“翻译”为模型可高效执行的指令。：无需训练即可激发模型能力。：效果受众多因素非线性影响。（如因果推理链设计）与。（如语言风格适配）。

2025-08-09 11:32:37 603

文章摘要 Agent2Agent (A2A) 协议是由谷歌提出的开放标准，旨在实现不同AI Agent系统之间的互操作性。该协议通过统一的通信方式，使不同框架或供应商构建的Agent能够相互发现、协作完成任务。文档通过三个数学计算Agent（正弦、余弦、正切）的示例展示A2A协议实现：每个Agent都注册特定数学函数作为技能，并通过HTTP端口提供服务；客户端通过AgentNetwork管理多个Agent，实现任务分发。A2A与MCP协议互补，前者关注Agent间协作，后者增强单个Agent能力。

2025-08-08 23:52:29 702

原创为什么提升模型尺度可以提升模型的CoT能力

摘要：研究发现，大语言模型的思维链（CoT）推理能力具有显著的涌现特性，当参数规模超过约100亿时才会显现。小模型使用CoT反而会降低性能，而百亿级以上的模型在多步推理、语义消歧和错误抑制方面表现更优。分析显示，模型规模提升能显著减少语义理解错误（下降62%）和步骤缺失（减少58%）。尽管规模是关键因素，但需配合适当的提示工程（如Few-shot示例）才能有效激活CoT能力。该研究揭示了LLM能力增长的非线性规律，为模型开发提供了重要方向。

2025-08-08 23:32:12 652

原创《论文阅读》传统CoT方法和提出的CoT Prompting的区分

摘要：本文提出Chain-of-Thought（CoT）Prompting方法，通过设计包含推理步骤的提示模板，无需微调即可激发大语言模型的推理能力。相比传统方法（需标注大量训练数据或仅展示输入-输出对），CoT Prompting仅需3-5个示范样例，在100B+参数模型上展现出显著效果（如GSM8K数学题准确率从17%提升至56%）。其创新性在于将推理能力转化为提示工程问题，实现跨任务的零样本推理，大幅降低计算成本和数据需求。该方法揭示了模型规模与涌现能力的关系，为复杂推理任务提供了通用解决方案。

2025-08-08 15:37:00 753

原创使用LLM进行评分时的关键局限性

摘要：LLM自动评分存在两大问题：1)评分集中在中间值（如3分），导致低方差和与人类评判低相关；2)仅输出整数评分，无法区分文本细微差异。解决方案包括细化评分标准、概率加权法和两阶段评估等。实验表明，优化方法可显著提升评分方差（0.51→1.27）和相关性（0.62→0.79）。最佳实践需结合算法改进与评估流程优化，以逼近人类评判的灵敏度。（字数：149）

2025-08-08 10:25:25 816

原创关于G-Eval的form-filling paradigm理解

摘要：G-EVAL框架采用表单填写范式，通过结构化评估输出（如JSON格式）替代传统概率或自由文本方法。该范式强制模型按预定标准输出评分和注释，提升评估一致性和可解释性。其核心优势包括规避概率偏差、支持多维度独立评分，并通过CoT推理增强评估逻辑。技术实现需设计特定提示词，控制输出格式与离散评分。相比GPTScore类方法，表单范式更适用于标准化评估场景，但对评估标准设计质量敏感。（150字）

2025-08-08 00:35:54 343

原创关于基于大模型评估方法的自增强循环（Self-reinforcing Loop）风险

**摘要：**研究发现，使用大语言模型（LLM）作为评估指标时，可能产生自增强循环风险——LLM更倾向给自身生成文本打高分，导致优化过程中不断强化自身偏好，丧失人类文本的多样性。根源在于训练数据偏差、封闭评估系统和概率建模缺陷。解决方案包括混合人类评估信号、对抗训练和基于人类偏好的校准。最佳实践建议采用多样化指标、动态权重调整和隔离测试集。关键是要打破封闭循环，结合人类评估信号，发展真正理解能力的评估模型。

2025-08-08 00:24:54 538

原创 MCP (Model Context Protocol) 与 HTTP API：大模型时代的通信新范式

MCP（Model Context Protocol）是一种针对大模型交互优化的新型通信范式，与HTTP API形成对比。HTTP API作为无状态请求-响应协议，每次交互都需要完整传输上下文，在大模型长对话场景中效率较低。而MCP采用会话导向设计，通过上下文ID和增量更新机制，允许模型在多轮对话中维护状态，仅传输变化的上下文片段。这种设计显著减少了冗余Token传输，提升了交互效率，特别适合需要持续上下文管理的LLM应用场景。虽然MCP增加了实现复杂度，但为长上下文对话、持续学习等场景提供了更优的解决方案

2025-07-25 18:57:45 984

原创 RAG的5种分块策略

摘要：文本分块（Chunking）是大模型处理长文本的关键步骤，需根据需求选择合适策略。固定大小分块简单高效但可能破坏语义；语义分块基于标点或嵌入相似度保持语义连贯；递归分块分层切分，兼顾结构与大小；基于文档结构的分块利用标题、段落等逻辑单元，最大化保留原义。无通用最优策略，需结合文本类型（松散/结构化）、任务需求（检索/生成）及计算资源综合选择。例如，RAG系统优先语义分块，而快速原型可采用固定分块。

2025-07-23 15:18:29 797

原创 python-pptx 的layout 布局

在 PowerPoint 中，决定了幻灯片的占位符（如标题、内容、图片等）的排列方式。提供了对布局的编程控制。通过。

2025-07-18 21:06:57 333

原创 LangChain 学习项目代码

"LangChain学习项目提供了一系列示例代码，帮助开发者掌握LangChain框架。项目包含从LLM基础、提示词模板到智能体、文档检索等10个模块的渐进式学习内容。每个示例都有详细注释，建议按编号顺序学习。核心功能包括LLM接口、提示词管理、链式组件、记忆状态等。使用前需安装依赖并配置API密钥。该项目适合希望系统学习LangChain的开发者。"

2025-07-16 15:42:22 161

原创 LangChain中提供的检索方法

LangChain提供了多种检索方法以适应不同场景需求。基于相似度的检索（如余弦相似度）是基础方法，可返回相关文档及相似度分数。为平衡相关性与多样性，最大边际相关性（MMR）算法确保结果覆盖面更广。增强检索策略包括多查询检索（提高召回率）、上下文压缩检索（减少令牌数量）、父文档检索（分层检索）和时间加权检索（优先最新结果）。基于代理的检索（如SelfQueryRetriever）支持复杂查询转换。此外，语义路由器可动态选择最适合的检索器，实现智能知识库管理。这些方法共同优化了检索效果与效率。

2025-07-16 15:32:25 743

原创 LangChain 数据检索（Retrieval）

摘要：大型语言模型（LLM）的知识受限于训练数据，无法获取实时或特定领域信息。数据检索（Retrieval）技术通过关键组件解决这一问题：文档加载器从多种数据源提取内容，文本分割器将长文档切分为语义完整的片段，嵌入模型将文本转换为向量表示以支持相似度搜索。典型流程包括数据加载、分割、向量化存储和检索，最终增强LLM生成能力。该技术拓展了LLM的应用边界，使其能结合外部知识库提供更精准的响应。

2025-07-16 10:16:54 895

原创 LangChain 内存（Memory）

摘要：大型语言模型（LLM）本身无状态，无法记忆历史对话。LangChain通过内存机制（如ConversationBufferMemory）存储对话历史，使LLM能理解上下文。其核心流程包括保存、加载历史并注入到Prompt中。基础内存类型ConversationBufferMemory会存储全部历史，但可能导致提示过长；改进方案ConversationBufferWindowMemory仅保留最近N轮对话，优化上下文长度与成本。代码示例展示了如何利用这两种内存实现多轮对话，通过MessagesPlac

2025-07-12 23:36:41 505

原创 Agent 设计模式

大型语言模型（LLM）的Agent设计模式包括四种核心模式：工具使用模式（调用外部工具扩展能力）、思考-行动模式（结合推理与工具使用的循环）、反思模式（评估任务结果并自我改进）以及规划模式（分解复杂任务为子任务）。这些模式通过赋予LLM规划、反思、工具调用和协作能力，使其能够处理更复杂的智能任务。文中提供了每种模式的流程图和代码示例，展示了从基础工具调用到多轮反思优化的完整Agent设计思路。这些模式可单独使用或组合应用，为构建高效AI系统提供方法论支持。

2025-07-12 22:59:24 416

原创 LangChain 代理（Agents）学习

LangChain代理核心机制解析 LangChain中的代理(Agents)赋予语言模型自主决策能力，通过"思考-行动-观察"循环(TAB)完成复杂任务。其核心组件包括： TAB循环机制：模型持续执行思考决策、调用工具、观察结果的迭代过程工具系统：通过@tool装饰器将函数转化为代理可调用的工具，包含名称、描述和执行逻辑 ReAct代理模式：结合推理(Reasoning)和行动(Acting)，模型生成包含思考过程的结构化输出记忆功能：通过内存模块保存对话历史，实现上下文感知的持续

2025-07-12 21:23:43 360

原创 LLM 不知道答案，但是知道去调用工具获取答案？

摘要：大型语言模型（LLM）调用工具并非因其“知道”正确答案，而是通过模式识别与指令遵循实现。当面对超出其知识边界或低置信度的问题（如时效性事实），LLM会匹配工具描述（如搜索工具的功能说明），并遵循结构化提示（如ReAct框架）调用工具。这种机制使其避免随意生成错误答案，转而依赖外部工具获取可靠信息。代理框架的核心是为LLM提供决策逻辑和执行能力，使其像遵循指令的“学生”优先选择工具而非猜测。关键在于：识别问题类型评估自身知识局限性匹配工具用途严格遵循提示指令。

2025-07-12 21:21:29 337

原创 LangChain 与 LlamaIndex：RAG 项目中的双雄对比

RAG（检索增强生成）是提升大语言模型应用的关键技术，LangChain和LlamaIndex是两大主流框架。LangChain强调模块化编排，通过LCEL将RAG流程组件化连接，适用于复杂应用开发；而LlamaIndex采用"数据优先"理念，专注于构建高效知识索引和智能查询引擎，优化数据检索。两者在RAG实现上各具特色：LangChain灵活通用，支持多种LLM应用场景；LlamaIndex则在数据处理和检索环节更高效。开发者可根据项目需求选择框架——LangChain适合需要高度定制

2025-07-12 20:46:12 493 1

原创 LangChain 的链（Chain）

链（Chains）是LangChain的基石，它允许开发者将多个独立的组件连接在一起，形成一个有向无环图（DAG），从而构建出功能更强大、更复杂的LLM驱动型应用。一个链可以是一个简单的顺序执行流程，也可以是包含条件逻辑、并行执行的复杂工作流。

2025-07-12 17:13:28 453

原创一种新的参数高效微调方法-LoRI

这篇论文提出了一种新的参数高效微调（PEFT）方法，名为 LoRA with Reduced Interference (LoRI)。LoRI 旨在解决传统 LoRA 的局限性

2025-06-21 16:24:08 399

原创 DeepSpeed 深度学习学习笔记：高效训练大型模型

DeepSpeed是一个针对大型深度学习模型训练优化的开源库，由微软开发。它通过核心技术ZeRO（零冗余优化器）系列解决了训练千亿参数模型时的显存瓶颈问题。ZeRO分为三个阶段：Stage 1（优化器状态分片）可节省约4倍显存，Stage 2（梯度分片）共节省7倍显存，Stage 3（参数分片）实现最大显存优化。此外，ZeRO-Offload技术可将部分计算卸载到CPU/硬盘。DeepSpeed还提供高效的混合精度训练、通信优化和易用API，支持从单GPU到数千GPU的弹性扩展，使大规模模型训练更加高效和可

2025-06-20 15:02:54 1166

原创 QLoRA (Quantized Low-Rank Adaptation)浅析

QLoRA：高效大模型微调方法 QLoRA（Quantized Low-Rank Adaptation）是一种创新的模型微调技术，在保持LoRA参数效率的基础上，通过三项关键技术显著降低显存需求：1）采用4-bit NormalFloat量化预训练模型权重；2）对量化参数进行二次量化（Double Quantization）进一步节省内存；3）引入分页优化器管理优化器状态。这种方法能在单张消费级GPU（如24GB显存的RTX 3090）上微调650亿参数的大模型，同时保持接近全参数微调的性能。QLoRA通过

2025-06-19 21:28:38 1011

原创 LoRA 浅析

LoRA是一种参数高效的微调方法，通过冻结预训练语言模型的权重，仅训练新增的低秩矩阵来减少计算资源。其原理是将线性层分解为Wx+BAx，其中BA是远小于原始矩阵的低秩矩阵。LoRA在微调时只训练A和B矩阵，推理时可合并或单独计算。实现中包含缩放系数调节影响力，经验表明设为秩的2倍效果最佳。相比全参数微调，LoRA资源消耗更少，但在需要大改的任务上性能可能略降。

2025-06-19 16:55:02 366

原创 LoRA 与 CoT 冲突吗

摘要： CoT（思维链）与LoRA微调可能存在目标冲突：CoT强调逐步推理，而LoRA侧重特定任务格式输出。若微调数据不含CoT轨迹，模型可能丧失推理能力。解决冲突的关键在于明确目标：需要CoT能力：用含推理步骤的数据微调LoRA，使模型内化思考过程；仅需简洁输出：用无CoT数据微调LoRA，推理时分离CoT步骤（如两阶段处理：先用通用模型生成CoT，再用LoRA模型格式化输出）。二者可协同——CoT作为推理策略，LoRA作为高效训练工具，需根据任务需求灵活结合。

2025-06-19 16:16:20 614

原创【番外】 AI 时代应具备的四大核心能力

培养“AI 思维”：理解不同 AI 的能力边界和最佳应用场景。这要求我们不仅要理解 AI 能做什么，更要理解它不能做什么，以及在什么情况下使用哪种类型的 AI 模型能达到最佳效果。发展“整合力”：将 AI 能力与人类洞察有机结合。强调人机协作是关键，AI 负责处理重复性和复杂计算，人类提供创造性思维、伦理判断和高阶策略。提升“引导力”：能够准确地引导 AI 完成任务。这意味着人类需要掌握与 AI 交互的艺术和科学（例如提示工程），清晰地表达需求，确保 AI 按照预期执行。

2025-06-17 23:43:01 860

原创工作流和Agent 的区别与联系

本文对比了工作流（Workflow）和智能体（Agent）的概念与区别。工作流是预定义、结构化的任务序列，强调流程控制和自动化执行；智能体则是具有感知、推理和行动能力的自主实体，侧重动态决策和环境适应。二者都可通过LangGraph实现：工作流用于构建确定性流程，智能体则作为其中的决策单元。关键区别在于，工作流关注"怎么做"，智能体解决"谁来做"和"如何自主决策"。大模型时代下，系统设计正从固定工作流向灵活智能体演进。LangGraph作为统一框架

2025-06-17 11:37:29 554

原创 LangGraph 智能体中 LLM 节点与工具的协作深度解析

本文摘要： LangGraph智能体中LLM节点的工具调用机制包含五个核心环节：1）通过JSON Schema规范工具定义（名称、描述、参数）；2）通过提示工程将工具信息嵌入LLM上下文；3）解析LLM输出的结构化调用请求；4）基于图结构进行条件路由；5）状态管理维护上下文。具体实现时，需用@tool装饰器定义工具函数，通过bind_tools()方法将工具绑定到LLM，再由ToolExecutor解析和执行工具调用。整个过程强调工具描述的准确性和参数schema的规范性，LLM会根据输入自动判断是否需要发

2025-06-16 14:55:42 693

原创 LangGraph-example 学习

图配置此处可以定义图的参数信息，例如 LLM 等信息图定义# 定义一个图，StateGraph是我们主要使用图定义的类，此处参数传入# 整个图的状态以及图配置信息# 在该图中可以体现cycle为此处，即大模型与工具的交互# 严谨一些讲应该是大模型参与的角色就可能有交互，这也是LG的最大意义# 为了可以实现更好的应用效果，我们需要通过大模型的加入，但是大模型的加入。

2025-06-15 17:47:56 398

原创 LangGraph 深度学习笔记：构建真实世界的智能代理

本文介绍了LangGraph框架的核心概念及其在构建智能代理中的应用。主要内容包括： LangGraph的核心组件：状态图(StateGraph)作为应用程序蓝图节点(Nodes)作为独立执行单元边(Edges)控制数据流和工作流程状态管理和持久化机制 LangGraph的优势：支持循环决策流程(ReAct模式) 清晰的代理决策流结构强大的可观测性和调试能力状态持久化和恢复功能构建流程：定义应用状态创建功能节点构建状态图编译和运行文章通过一个多代理聊天助手案例，展示了LangGra

2025-06-15 01:22:58 361

原创【浅谈】Agent 的存在具有什么意义

Agent 的核心价值在于将 LLM 的强大语言理解和生成能力，与外部工具的行动能力以及持久的记忆能力相结合，从而创造出能够自主思考、自主行动、自主学习的智能体。它突破了传统 LLM 的局限，将人工智能从被动响应推向了主动解决问题的新阶段，预示着 AI 在自动化、智能化和通用化方向上迈出了重要一步。

2025-06-13 19:50:00 741

原创 Agent 处理流程

Agent 源于研究行为的强化学习，而大模型源于研究知识的深度学习

2025-06-13 19:02:23 634

原创【RAG 项目实战】法律条文助手

通过这个项目，我们不仅构建了一个基于开源技术栈的劳动合同法法律助手，更重要的是，它为我们深入理解 RAG 系统的原理、构建流程以及性能优化提供了宝贵的实践经验。

2025-06-13 13:37:53 1207 2

原创 Streamlit 笔记

Streamlit 是一个用于快速构建数据应用的 Python 库，通过简洁代码即可创建交互式 Web 应用。主要特点包括：简单易用、实时更新、支持多种交互组件（如按钮、滑块、图表等）和机器学习模型集成。安装时若遇到 cmake 或 pyarrow 问题，建议使用 conda 安装依赖。基本用法包括创建文本框、按钮、数字输入框等组件，可通过 streamlit run 命令运行应用。它还支持数据可视化、文件上传、缓存优化等功能，并能构建多页应用。典型应用场景包括展示数据框、生成图表等，是数据科学家快速开发原

2025-06-13 11:09:54 809 2

原创 Chroma 向量数据库学习笔记

Chroma 是一个开源的嵌入式向量数据库。它主要用于存储和检索嵌入向量，这些向量通常由大型语言模型 (LLM) 或其他机器学习模型生成，用于表示文本、图像或其他类型数据的语义信息。Chroma 的设计目标是易于使用、轻量级、且专为 LLM 应用优化。

2025-06-12 14:03:42 811

原创 LlamaIndex 学习笔记

LlamaIndex学习笔记摘要 LlamaIndex（原GPT Index）是连接私有数据与大型语言模型（LLM）的框架，解决LLM无法直接访问最新/专有数据的问题。其核心流程分为四阶段：预处理：解析PDF/Word等文档，分块处理并生成带元数据的节点；索引构建：通过嵌入模型创建向量/关键词/图谱等混合索引；查询处理：多策略检索（向量相似度+关键词匹配），筛选相关节点；响应生成：结合LLM合成答案（紧凑模式/树状汇总等）。系统还支持持续优化索引与检索策略。适用于需增强LLM领域知识的应用场景。

2025-06-12 11:06:05 889

原创 RAG 处理流程

本文介绍了RAG（检索增强生成）系统的处理流程与关键问题。系统首先将用户问题编码为向量，通过检索器从知识库中获取相似文档，可选重排序后输入问答模型生成答案。主要挑战在于嵌入模型不一致问题：知识库编码和查询编码若使用不同模型会导致检索质量下降。解决方案包括统一嵌入模型或直接使用问答模型嵌入层。流程分为检索阶段（向量空间）和生成阶段（文本空间），其中向量仅用于检索，生成阶段输入为纯文本。典型组件包括嵌入模型（如text-embedding-ada-002）、检索器（如FAISS）、重排序模型（如cohere-r

2025-06-11 22:23:55 1115

Aspose.Words.18.11.0.nupkg

java多线程拥有同一把锁就代表拥有同一种资源吗