SLM实验室:新的RL研究基准和软件框架

计算和人才的增加使强化学习(RL)研究成为机器学习的热门领域 - 它已被用于解决自动驾驶汽车,机器人技术,药物发现等方面的问题。但是,找到一种方法来重现现有工作并准确评估迭代改进仍然是RL面临的一项艰巨挑战。

为了保持RL的发展势头,来自Machine Zone,Google Brain和California Institute of Technology的一组研究人员推出了一种新的软件框架和基准,用于可重复的强化学习研究。

在这里插入图片描述

“SLM Lab”是PyTorch中的一个模块化深度强化学习框架。研究人员解释说,当两种RL算法只有很小的差异时,运行每种算法的独立实现然后比较相对性能可能会产生不清楚的性能分析。因此,他们选择在SLM实验室中模块化地实现RL算法,因此性能的差异可以自信地归因于算法之间的差异,而不是实现之间的差异。

该团队还表示,模块化代码可能对研究目的有益,因为它使新的RL算法的实现更容易。模块化是SLM实验室的核心,其RL算法在三个基类中定义:

1、算法:处理与环境的交互,实现操作策略,计算特定于算法的损失函数,并运行训练步骤。

2、网络:实现用作算法函数近似器的深度网络。

3、内存:提供训练所需的数据存储和检索。

在这里插入图片描述

正如实现会导致 RL 算法的性能差异显著一样,环境和超参数设置等其他因素也是如此。为了帮助用户更好地了解各种设置和性能差异,该团队以结构化的“会话-试验-实验”顺序组织实验。在 SLM Lab 中,在环境中单次运行算法是“会话”,而会话集合包含试用。试验是具有各种算法和环境的试验的集合。该团队还在规范文件中为算法指定了每个可配置的超参数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值