Using Large Language Models to Automate and Expedite Reinforcement Learning with Reward Machine

828 篇文章

已下架不支持订阅

37 篇文章
本文介绍了LARL-RM算法,利用大型语言模型(LLM)生成领域特定知识,以自动机的形式加速强化学习过程。通过提示工程,无需专家编码,实现闭环学习并收敛到最优策略。实验证明,相比传统方法,LARL-RM能提升30%的收敛速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Using Large Language Models to Automate and Expedite Reinforcement Learning with Reward Machine》的翻译。

摘要

我们提出了LARL-RM(Large language modelgenerated Automaton for Reinforcement Learning with Reward Machine)算法,以使用自动机将高级知识编码到强化学习中,从而加快强化学习。我们的方法使用大型语言模型(LLM)使用提示工程来获得高级领域特定知识,而不是直接向强化学习算法提供高级知识,这需要专家对自动机进行编码。我们使用思想链和小样本方法进行提示工程,并证明我们的方法使用这些方法是有效的。此外,LARL-RM允许完全闭环的强化学习,而不需要专家来指导和监督学习,因为LARLRM可以直接使用LLM来生成手头任务所需的高级知识。我们还展示了我们的算法收敛到最优策略的理论保证。通过在两个案例研究中实施我们的方法,我们证明了LARL-RM将收敛速度提高了30%。

1 引言

2 前言

3 使用LLM生成领域特定知识

4 使用LLM生成的DF

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值