【聊一聊】LLM、MCP、Agent

最新推荐文章于 2025-07-27 09:45:31 发布

原创最新推荐文章于 2025-07-27 09:45:31 发布 · 943 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #程序员 #RAG #知识库 #大模型 #AI大模型 #大模型入门

近期跟进了一些AI行业热点，恶补了一波llm知识点，部署了一些项目，手搓了工作流和agent。写篇备忘录记录一下。

~目录~

知识点：近期热点汇总
AI生物学：Anthropic的AI可解释性研究
产品试用：字节发布的通用型AI Agent
我搭的几个智能体：元素合成游戏、url转播客、平替anything游戏、公众号后台bot
End

~正文~

一、知识点

RAG / 检索增强生成

1、RAG是什么

RAG（Retrieval Augmented Generation，检索增强生成）的概念源于Facebook团队2020年的论文[1]，这是一种结合了参数化记忆和非参数化记忆的、利用外部知识来增强模型的解决方案。
RAG论文作者的解释[2]最直观：RAG通过检索语言模型未经训练的数据源中的相关信息，并将其注入模型的上下文中，从而扩展了语言模型的知识库。
简单说：RAG让模型在回答前查资料，以确保输出的可靠性。

2、RAG旨在解决生成式语言模型的一些缺陷

无法访问私有数据：模型通常基于公共数据进行训练，但往往需要那些不断变化和扩展的专有信息。
过时的参数知识：即使模型频繁更新，其训练数据截止日期与当前时间之间总会存在差距。
幻觉和归因问题：模型经常编造听起来合理但错误的信息。RAG通过将回答基于真实来源，并提供引文让用户核实信息，解决了这个问题。

MCP / 模型上下文协议

1、MCP是什么

MCP（Model Context Protocol，模型上下文协议）来源于Anthropic在2024年的文章[3]。MCP定义了应用程序和AI模型之间交换上下文信息的方式，使得开发者能够以一致的方式将各种数据源、工具和功能连接到AI模型。
简单说：MCP是一个把“let llm know calling what tools”这一过程标准化的通用协议。（这里提到的tool calling工具调用机制介绍如下）

2、为什么要提出MCP

目前普遍采用工具调用机制：当llm解决垂直领域问题的效果不佳时，让llm调用其他擅长该领域的模型或工具，可以获得更好的结果。
为了更标准化地进行工具调用，开发者会编写自己的llm-tool交互协议。由于大家的工具、接口和需求不尽相同，协议也各不相同、各自迭代，这样会不断地循环造轮子。
为了规范LLM到Tools协议的连接，MCP就出现了，只要大家都遵守这个协议，做的工具也就能直接复用。

3、原理和质疑

运行原理：根据官方的样例代码，MCP协议通过拿到所有工具信息，然后经过一定的格式化，拼接到prompt里发送给大模型。也就是说，目前MCP还是通过读取prompt让llm判断使用什么工具。
为什么说跨越性的突破还需等待：目前的工具调用机制是llm通过prompt和工具描述来判断调用什么工具，MCP只是让这个过程变得更标准化、更通用。随着任务复杂度上升，这种基于自然语言描述的接口协议会导致工具调用效率明显下降，llm要调用的工具越来越多，prompt需要堆更多的信息，耗费的上下文资源越来越大。

Workflows / 工作流

Chains lets you create a pre-defined sequence of tool usage(s).
通过工作流可以高效地实现一些非常定制化的需求、做一些高度垂直领域的AI产品，而仅通过prompt通常难以实现。

workflows / chains

Agent / 智能体

智能体在商业上吹得神乎其神，例如：Agent更加强调自主的发现问题、确定目标、构想方案、选择方案、执行方案、检查更新，可被认为是一类拥有“自主智能的实体”。
LangChain官方文档[4]对Agent的解释非常清晰：Agent is AI using tools in a loop.
经过一段时间各种手搓工作流、搭建智能体、试用各家Agent的体验，从当前的产品上看，Agent≈LLMs+工具调用+预设流程+虚拟机。简单说，AI只能跟你对话，Agent直接帮你干活。

agent

二、AI可解释性研究

之前的认知是大模型的生成过程是个黑箱or概率模型，llm只是在无情地按概率预测下一个token。Anthropic团队的AI可解释性研究提出了一些新观点（Circuit Tracing[5]、AI Biology[6]、summary[7]），大模型的内部世界可能非常反直觉。梳理完之后有两个收获：一是更新了这部分认知，二是对写prompt很有帮助。

LLM不只是在预测下一个token：LLM在输出前就形成或激活了某些整体概念/speech intent/最终结果。
思考过程不反映实际推理过程：Reasoning LLM输出的“思考过程”跟回答内容一样，只是模型输出的一系列token，不代表模型内部实际发生的推理过程。
是合理化而不是推理：Reasoning LLM在输入后可能就激活了某些最终结果，中间输出的推理过程只是为了合理化地达到这个结果。也就是说，不合适的prompt可能会激活无关结果，让推理过程变成滑向这一结果的“合理化”过程。
LLM也能符号化思考：用不同语言问llm相同问题，发现不同语言之间共用了一些线路，说明LLM内部能做到一定程度的语法和语义的分离。
越狱的发生表明语义和语法没有完全分离：模型的输出不是为了符合一个严格的规则，而是为了符合一定的概率分布。构建与危险概念无关的陌生语境，让模型在语法规则驱动下被迫完成输出，因而实现越狱。这也说明LLM没有完全超脱语法规则限制，语义和语法没有完全分离。
幻觉与抑制机制：“无法回答”是模型默认行为（可能因反幻觉训练导致），当输入的token激活了模型内部某些概念/线路时，模型才会沿着这些路径作答。不合适的prompt可能会激活与答案无关的作答路径。

三、AGI Agent试用体验

此前Manus自封全球首款通用型AI Agent，掀起一大波热度，邀请码一度被炒到上万元一个。最近字节发布自家的AI Agent——扣子空间，申请即可试用，终于在2025年真实体验到了早在一两年前各家宣传视频上就有的演示效果。

先来看看扣子空间的运行界面：左边是传统对话界面，会显示思考过程、正在执行的任务和输出；右边有实时跟随、文件、终端，终端=ai的"虚拟机"，ai可以在终端里面部署环境和工具、执行代码并输出结果、创建和读写文件。过去AI只有嘴，现在终于有手了。

运行界面：左边传统对话，右边agent在终端执行任务

下面是我跑的一些任务实例，测试一下Agent这种产品形态跟日常用的各家llm产品相比，有哪些不一样的体验。

生成网页

输入如下：

基于《百年孤独》，创建一个读书笔记网页，实现以下功能：
页面1：介绍书中主要人物、重要情节；
页面2：从书中摘录出文学性较强的片段，附上注解、配图，形成多篇读书笔记；
页面3：页面3用户能与主要人物进行对话；
页面4：附上相关的文学评论或研究。
其他页面：发挥你天马行空的创意，自行生成。

Agent依次执行了：pdftotext、llm结合用户输入提取txt关键信息、gen_image、设计网页UI、生成网页代码、部署网页。一套流程行云流水，给出了下面的网页[8]：

生成的《百年孤独》网页

网页框架完整，有基本的UI和动效。对于这类任务，coze直接给出了jsx文件和网址（部署在coze服务器上），帮用户省去了部署并发布网址的操作。

股票分析

用了内置的“专家agent”华泰A股观察助手。只输入了一句“分析安克创新这只票”，然后执行了一系列非常标准化的任务，创建了一堆csv、py、md文件。

只输入了一句“分析安克创新这只票”，没加任何prompt

生成的结果如下[9]，也是以网页的形式给出。内容上和其他llm产品没有很大区别，形式上直接给出网址，高效一些。

生成的结果：内容清汤寡水，处处免责声明

执行代码

喂了一个写有量化金融题目描述、公式描述和函数示例的ipynb文件，让Agent推导公式、生成代码写入ipynb、执行并输出pdf via latex。

截止到运行代码，跟其他llm产品区别不大。但比较惊喜的是，agent自己安装好了导出tex文件所需的依赖包，成功执行代码并导出了latex-pdf文件。安装依赖和执行的过程不完全顺风顺水，输入几次“继续”之后agent自己搜索网络成功debug。这应该是目前非agent产品做不到的。

综上，整体感受是，通用Agent在一些边际工作上带来了一定程度的效率提升，但暂时达不到刚需。

四、搭建工作流和智能体

用字节coze和腾讯元器平台搭了一些简单的智能体：两个对话游戏、一个url转播客工具、一个公众号后台回复bot。

元素合成[10]

游戏玩法：初始元素有💧水、🔥火、🌍土，选两个元素输入，ai随机生成新物质并放入元素列表。通过不断的自由组合，生成五花八门的各种元素，并随机触发成就事件。

元素合成游戏对话示例

我的搭建流程：

一开始搭了个workflow，利用全局变量+代码实现元素列表的稳定更新。效果还行但速度较慢，因为按工作流agent的结构，用户对话调用最外层的llm1，llm1分析input后调用工作流，工作流又包含了使用llm2生成新元素的步骤。本来只应调用一次llm的任务硬生生调用了两次。
coze应该也知道这个情况，推出了对话流beta。改为对话流agent，这样只需调用一次llm。但对话流似乎不支持设置"用户提问建议"，导致用户还得手动输入，这体验就很不方便。
最后改用纯prompt。本以为纯prompt会导致长对话后llm不遵守规则、输出不稳定，结果测试完发现效果还不错，稳健性也很好。感受：时代真是变了，有时候捏一个好的prompt比搭工作流来得更高效。

元素合成游戏工作流编辑

url转播客[11]

用法：输入文章链接，生成男女主播对话形式的音频文件，并加入合适的bgm。可以在链接前加上“音量num+”来调整bgm音量大小。

url转播客对话示例

整个智能体通过对话流agent实现：读取url、llm1生成播客台词、合成语音、llm2生成bgm关键词、选取bgm、合成音频文件。

url转播客对话流编辑

用我之前的旅行攻略文章测试，效果不错。之前用扣子空间测试了几次，都生成失败，目前一些定制化需求还是手搓工作流实现起来更稳健一些。

coze平台有很多类似的智能体。我用之前写的另一篇关于LLM制作文字冒险游戏的文章测试url转相声，效果也不错：

平替anything[12]

游戏玩法：输入任何事物名称，都能回复一个消费降级的平替。

平替anything 对话示例

和元素合成游戏一样，通过纯prompt实现。

平替anything：prompt编辑后台

公众号后台bot

在腾讯元器平台上搭的工作流，实现公众号后台多功能对话。

目前只写了正常对话+游戏调用：若正常对话就调用llm1，若想进行游戏就调用llm2。两个llm对应不同prompt。

与coze相比，腾讯元器的工作流编辑操作体验一言难尽。不过此前微信开了公众号智能回复灰度测试，以后应该会继续迭代。

综上，上述智能体已放公众号后台菜单"My GPTs"，目前有coze免费额度，欢迎来试用。

五、尾声(by ds)

多年以后，当我站在AGI时代的光晕中，或许会想起自己手搓工作流、搭建智能体的那个遥远的下午。那时的我，或许已记不清RAG与MCP的细枝末节，但那些与AI共同探索的瞬间，如同布恩迪亚家族对冰块的执念，早已成为某种意义上的启示录——毕竟，真正改变世界的从不是技术本身，而是我们如何用代码、协议与想象力，在概率的迷雾中雕刻出属于人类的答案。🚀🤖📚

一、大模型风口已至：月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

二、如何学习大模型 AI ？

🔥AI取代的不是人类，而是不会用AI的人！麦肯锡最新报告显示：掌握AI工具的从业者生产效率提升47%，薪资溢价达34%！🚀

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

* 大模型 AI 能干什么？
* 大模型是怎样获得「智能」的？
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例：向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示（Embeddings）
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2：手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身：基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例：如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】