一文搞懂AI Agent原理——李宏毅2025第二讲笔记

目录

零、AI Agent 定义与示例

定义

示例

一、Agent关键能力1:如何根据经验调整行为(如何拥有记忆)

1、当模型要解决问题的时候,对于远期的记忆怎么处理?

2、只告诉语言模型怎么做是对的,不要告诉他“不要做什么”

二、关键能力2:语言模型如何使用工具

1、工具定义&常用工具

2、开发方式

3、有非常多的工具怎么办?

4、如果语言模型使用工具做错了怎么办呢?

三、关键能力3:语言模型如何做计划?


零、AI Agent 定义与示例

定义

人类给定目标,AI自己想办法达成。AI Agent 根据人类的目标(Goal)做出动作(action),影响环境后,agent通过观察调整action。(PS:可能不同的地方,定义不一样)

示例

以alphago为例子:agent的目标是赢棋,通过观察19x19的棋盘,采取动作,选择一个可以落子的地方落子,再观察对手下棋的位置,再落子。但是现在的AI Agent已经跟alphago很不一样了,alphago是用强化学习专门做的下期模型。现在的Agent则可以用文字、图片描述环境,LLM阅读环境信息后直接转译为行动。

从LLM的角度看,Agent一直在做文字接龙——给定目标,观察环境,做出行为,循环观察环境,再做下一步行为。请注意在这堂课程中,没有任何模型被训练。AI Agent举例:让AI使用电脑、用AI训练模型、用AI做研究。且AI Agent 迈向更加真实的互动,比如语音对话,上一个action 还没有执行完,新的对话又来了,那么模型根据输入需要立刻转换行动。

一、关键能力1:如何根据经验调整行为(如何拥有记忆)

1、当模型要解决问题的时候,对于远期的记忆怎么处理?

  • 记忆不能100%的记录下来,不然记忆模块会被无关紧要的小事给填满。解决方案是,用一个write(大模型)决定记录什么记忆。用一个反思模组(大模型)对记忆中的资料做重新整理。read模组(大模型)来确认如何抽取资料。甚至可以为记忆建立知识图谱。
  • read模组,提取与当次操作相关的信息,输入模型。read 从资料库(长短期记忆)中检索出相关信息,检索方式与RAG一致。
  • 一个小技巧:引导模型得到正确答案,给负面回馈几乎没有用,要给他历史正确的案例,比给他历史错误案例有用得多。
  • 关于GPT记忆的研究还在持续,李老师给了从23年到25年的3篇论文

2、只告诉语言模型怎么做是对的,不要告诉他“不要做什么”

蓝色:正面负面例子都用;橙色:只用负面的例子;红色:只用正面的例子。只用证明例子的大模型语言表现最好

关于GPT记忆的论文(研究还在持续不断)

二、关键能力2:语言模型如何使用工具

1、工具定义&常用工具

  • 工具定义:只需要知道怎么使用它,不需要知道内部运作原理
  • 语言模型常用的工具:搜索引擎、编程、其他模型(比如语言模型调用多模态模型)
  • 工具可以看做function,使用工具就是function call

2、开发方式

目前由开发者巧妙的定义好工具调用的方式,既调用了工具,又不会直接将调用过程展示给用户看。

  • system Prompt: 系统的prompt 用户看不到,每次跟着用户给的指令输入模型中
  • user prompt: 用户输入的prompt

  • 调用其他模型的例子:用户给一段语音文件,需要大语言模型给出语言的内容和情感,大语言模型则会去调用语音相关的模型。

3、有非常多的工具怎么办?

  • 1)类似agent memory的作法,打造一个工具选择的模组。在确定用哪个工具时,用类似RAG的作法,检索合适的工具。大语言模型的输入,包含被选择的工具+当前情况,输入模型。(选择工具的方式,就是右上角的两篇文章)

  • 2)语言模型自己打造工具

4、如果语言模型使用工具做错了怎么办呢?

语言模型有一定的判断能力,因为他有内部的先验知识。那么什么样的外部知识比较容易说服AI呢?

  • 与模型内部的知识比较接近的内容,容易说服模型
  • AI模型更倾向于相信其他AI生成的答案
  • AI模型更倾向于相信时间更新的内容
  • 一模一样的内容,模型会认为“ 来源于排版质量高、看起来漂亮的网页” 的内容质量更高,

三、关键能力3:语言模型如何做计划?

1)在prompt里面告诉模型要做计划

2)模型采用action1后,每次都根据环境,让模型自己想一下是否要更新自己的计划。

3)语言模型更新自己的计划(plan')

4)plan的benchmark

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值