本文是LLM系列文章,针对《Using Large Language Models to Automate and Expedite Reinforcement Learning with Reward Machine》的翻译。
利用大型语言模型实现奖励机强化学习的自动化和加速
摘要
我们提出了LARL-RM(Large language modelgenerated Automaton for Reinforcement Learning with Reward Machine)算法,以使用自动机将高级知识编码到强化学习中,从而加快强化学习。我们的方法使用大型语言模型(LLM)使用提示工程来获得高级领域特定知识,而不是直接向强化学习算法提供高级知识,这需要专家对自动机进行编码。我们使用思想链和小样本方法进行提示工程,并证明我们的方法使用这些方法是有效的。此外,LARL-RM允许完全闭环的强化学习,而不需要专家来指导和监督学习,因为LARLRM可以直接使用LLM来生成手头任务所需的高级知识。我们还展示了我们的算法收敛到最优策略的理论保证。通过在两个案例研究中实施我们的方法,我们证明了LARL-RM将收敛速度提高了30%。