【AI技术】主流Agent思想研究——Cot+ReAct+Reflexion

1、前言

从24年初开始的时候,吴恩达(Andrew Ng)、Harrison Chase(LangChain创始人)等人开始在红杉资本AI论坛等公开场合,提倡Agent、workflow、flow engineering等概念,整个Agent和大模型结合的范式在2024年逐渐由学界研究转到终端应用的实际开发与实践上,大量的软件架构(Langchain、LlamaIndex、MetaGPT)等逐渐建设整个agent 生态

吴恩达观点:

2024年,目前通过Reflection(反思)和外部工具的调用,是比较成熟的技巧;通过planning(计划)和Multi-agent collaboration(多Agent协同),目前还没到那么好用的程度

大家现在对本时代(GPT-4 同等level)的大模型智能的理解是,一句话prompt,一次生成出来几乎不能很好解决复杂问题,特别是需要到生产阶段投入到社会经济活动产生价值的这种复杂问题。

【AI Agent】综述资料阅读与思考-CSDN博客

从抽象的概念来说,大模型一句话next token prediction 生成就是 system 1 思考,巴拉巴拉就开始了。就拿写代码的例子来说,就好比口头描述一个需求,给到开发,逼他开始写代码了,而且还得一直顺着往下写,不能改,不能review。这几乎不太可能实现了

跟人类一样,AI需要通过sytem 2的思维来做复杂问题,对问题进行拆解、思考、行动、反馈迭代,反复打磨去把80分的基线拉到95分

下文会开始介绍从2022开始的几个比较重要的Agent思想的大模型试验,正是通过这一系列的empirical studies 证明了大模型的推理能力,挖掘了大模型在解决复杂问题的潜能,工业界随之便把这一系列的agent思想集成到了软件开发框架当中,给到开发者更多的工具来提升应用的智能

2、主流Agent思想

2.1、CoT(Chain-of-Thought)思维链

核心逻辑:在Promopt里面加上 中间的推理路径(intermediate reasoning steps),利用模型 上下文学习(in-context-learning)的能力来理解推理路径中的逻辑,运用到任务中去

### AI代理中的链式思维机制 #### 链式思维的概念与发展 链式思维(Chain of Thought, CoT)是指大型语言模型能够通过逐步推理解决复杂问题的能力。这种能力使得模型不仅限于简单的模式匹配,而是可以像人类一样分步思考,最终得出结论[^1]。 #### 工作原理 当面对一个问题时,采用CoT机制的AI会先理解问题背景及其核心要素。接着,系统内部模拟一系列逻辑推断过程——这类似于人在解决问题时的心理活动路径。每一步骤都建立在前一阶段的基础上,并为下一步提供必要的输入直到获得最终解答为止。 #### 应用实例 为了更好地展示这一特性,在自然语言处理领域内,如果给定一个需要多层解析才能完成的任务,比如解释某个成语背后的文化含义,则具备CoT功能的语言模型将会按照如下方式运作: 1. **识别关键词汇**:确定待分析的具体表达形式; 2. **检索相关信息**:查找与这些词汇关联的历史故事或典故; 3. **构建因果关系**:依据收集来的资料建立起合理的联系链条; 4. **形成完整叙述**:汇总以上各环节成果给出全面而深入的回答。 ```python def chain_of_thought_example(problem_statement): steps = [] # Step 1: Understand the problem statement and identify key elements. keywords = extract_keywords(problem_statement) steps.append(f"Identified Keywords: {keywords}") # Step 2: Retrieve relevant information based on identified keys. related_info = fetch_related_information(keywords) steps.append("Retrieved Information.") # Step 3: Establish logical connections between pieces of info. reasoning_chain = build_reasoning_chain(related_info) steps.append("Built Reasoning Chain.") # Step 4: Formulate a comprehensive response using established logic. final_answer = formulate_response(reasoning_chain) steps.append(final_answer) return "\n".join(steps) print(chain_of_thought_example("Explain the cultural significance behind '守株待兔'")) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值