OpenAI应用研究主管Lilian Weng在一篇长文中提出了
Agent = LLM(大型语言模型)+记忆+规划技能+工具使用
这一概念。AI Agent需要具备感知环境、做出决策并执行适当行动的能力。在这些关键步骤中,最重要的是理解输入给Agent的内容、进行推理、规划、做出准确决策,并将其转化为可执行的原子动作序列,以实现最终目标。
一个精简的Agent决策流程:
感知(Perception)→ 规划(Planning)→ 行动(Action)
- 感知(Perception)是指Agent从环境中收集信息并从中提取相关知识的能力。
- 规划(Planning)是指Agent为了某一目标而作出的决策过程。
- 行动(Action)是指基于环境和规划做出的动作。
Agent通过感知从环境中收集信息并提取相关知识。然后通过规划为了达到某个目标做出决策。最后,通过行动基于环境和规划做出具体的动作。Planning是Agent做出行动的核心决策,而行动又为进一步感知提供了观察的前提和基础,形成了一个自主的闭环学习过程。
借用网上的一个案例来解释agent的执行:
- 当一个人问Agent是否会下雨时,感知模块将指令转换为LLM可以理解的表示。
- 然后,大脑模块开始根据当前天气和互联网上的天气预报进行推理。
- 最后,动作模块做出响应,将伞交给人类。
通过重复上述过程,智能体可以不断地获得反馈并与环境进行交互。
在以LLM驱动的Agent系统中,LLM扮演着Agent的大脑角色,并辅以几个关键组件:
-
规划:LLM能够进行全面的规划,不仅仅是简单的任务拆分。它可以评估不同的路径和策略,制定最佳的行动计划,以实现用户给出的目标。
-
记忆:可以利用LLM具有的记忆功能,存储和检索过去的信息和经验。这使得它能够在处理用户查询时,利用之前学到的知识和经验,提供更准确和个性化的答案。
-
工具使用:LLM通过理解工具的描述,来学习使用各种工具和资源,并灵活运用它们来支持任务的完成,在构建Agent的时候可以让Agent感知自己可以使用什么工具。工具的实现可以是利用搜索引擎、数据库、调用API等,获取和整理相关信息,以满足用户的需求。
文章目录
- Agent = LLM(大型语言模型)+记忆+规划技能+工具使用
- 【大模型应用开发 动手做AI Agent】Agent的规划和决策能力 1
- 【大模型应用开发 动手做AI Agent】Agent的规划和决策能力 2
- 【大模型应用开发 动手做AI Agent】Agent的规划和决策能力 3
- 【大模型应用开发 动手做AI Agent】Agent的规划和决策能力 4