1、前言
从24年初开始的时候,吴恩达(Andrew Ng)、Harrison Chase(LangChain创始人)等人开始在红杉资本AI论坛等公开场合,提倡Agent、workflow、flow engineering等概念,整个Agent和大模型结合的范式在2024年逐渐由学界研究转到终端应用的实际开发与实践上,大量的软件架构(Langchain、LlamaIndex、MetaGPT)等逐渐建设整个agent 生态
吴恩达观点:
2024年,目前通过Reflection(反思)和外部工具的调用,是比较成熟的技巧;通过planning(计划)和Multi-agent collaboration(多Agent协同),目前还没到那么好用的程度
大家现在对本时代(GPT-4 同等level)的大模型智能的理解是,一句话prompt,一次生成出来几乎不能很好解决复杂问题,特别是需要到生产阶段投入到社会经济活动产生价值的这种复杂问题。
从抽象的概念来说,大模型一句话next token prediction 生成就是 system 1 思考,巴拉巴拉就开始了。就拿写代码的例子来说,就好比口头描述一个需求,给到开发,逼他开始写代码了,而且还得一直顺着往下写,不能改,不能review。这几乎不太可能实现了
跟人类一样,AI需要通过sytem 2的思维来做复杂问题,对问题进行拆解、思考、行动、反馈迭代,反复打磨去把80分的基线拉到95分
下文会开始介绍从2022开始的几个比较重要的Agent思想的大模型试验,正是通过这一系列的empirical studies 证明了大模型的推理能力,挖掘了大模型在解决复杂问题的潜能,工业界随之便把这一系列的agent思想集成到了软件开发框架当中,给到开发者更多的工具来提升应用的智能
2、主流Agent思想
2.1、CoT(Chain-of-Thought)思维链
核心逻辑:在Promopt里面加上 中间的推理路径(intermediate reasoning steps),利用模型 上下文学习(in-context-learning)的能力来理解推理路径中的逻辑,运用到任务中去