大模型探索式轨迹优化：基于试错的自主智能体学习新方法-CSDN博客

本文链接：https://blog.csdn.net/yetzi1975/article/details/143322444

人工智能咨询培训老师叶梓转载标明出处

现有的开源LLMs在构建智能体方面的效果远不如GPT-4。标准的构建开源LLM智能体的方法涉及模仿学习，即基于专家轨迹对LLMs进行微调。然而，这些方法完全依赖于专家演示，由于对目标环境探索不足而可能产生次优策略，限制了它们的泛化能力。为了解决这一问题，来自北京大学、加州大学洛杉矶分校、俄亥俄州立大学和伊利诺伊大学香槟分校的研究者们提出了一种名为探索式轨迹优化（Exploration-based Trajectory Optimization, ETO）的新型学习方法。该方法允许智能体从探索失败中学习，通过迭代优化框架提高性能。

方法

ETO通过行为克隆开始训练基础智能体，然后通过迭代的方式不断从试错中增强策略。图1展示了探索式轨迹优化（ETO）的过程。在这一流程中，Agent首先通过行为克隆学习基础任务执行策略，然后在实际环境中探索并收集失败的轨迹。这些失败轨迹与先前收集的专家成功轨迹形成对比，Agent利用这些对比信息通过直接偏好优化（DPO）等技术更新其策略。这个过程循环进行，以提高Agent在完成任务时的性能和适应性。