改善机器人模仿学习的决断力

Google 研究人员提出了一种新的模仿学习方法——隐性行为克隆(Implicit Behavioral Cloning),旨在解决机器人在执行精细任务时的不果断问题。通过训练神经网络,机器人能学习到更精确、果断的行为,无需离散化动作空间,克服了离散化带来的精度限制和维数灾难。在多项模拟和现实世界的任务中,隐性 BC 方法表现优秀,甚至在没有奖励信息的情况下超越了离线强化学习方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文 / Google 机器人团队研究员 Pete Florence 和研究工程师 Corey Lynch

尽管过去几年机器人学习取得了长足的进步,但在尝试模仿精确或复杂行为时,机器人智能体的某些策略仍然难以果断地选择操作。细想这样一项任务:机器人在桌子上滑动滑块,尝试将其精准地放入槽中。有很多可能的方法来完成这项任务,但是每一种方法都需要精确的移动和修正。机器人必须只遵从其中一个选择,还必须能够在每次滑块滑得比预期更远时改变方案。尽管人们可能认为这种任务很简单,但对于基于学习的现代机器人来说,情况往往并非如此,它们经常要学习被专家观察员描述为不果断或不精确的行为。

示例:基线显式行为克隆模型艰难地尝试完成任务,其中机器人需要在桌上滑动滑块,然后将其精准地插入固定装置中

为了让机器人变得更加果断,研究人员常常利用离散化 (discretized) 动作空间,强制机器人选择选项 A 或选项 B,而不会在所有选项之间摇摆不定。举例来说,离散化是我们近期 Transporter Network 架构的关键元素,也是许多游戏智能体的显著成就中所固有的,比如 AlphaGo、AlphaStar 和 OpenAI 的 Dota 机器人。

  • AlphaGo

    https://ai.googleblog.com/2016/01/alphago-mastering-ancient-game-of-go.html

  • AlphaStar

    https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning

  • Dota 机器人

    https://arxiv.org/abs/1912.06680

但是离散化有自身的局限性,对于在空间连续的现实世界里运行的机器人来说,离散化至少有两个缺点:(i) 它限制了精度,(ii) 它引发了维数灾难 (Curse of dimensionality),因为沿许多不同的维度离散可能会极大地增加内存和计算要求。与此相关的是,在 3D 计算机视觉领域,许多近期进展是由连续而非离散的表征驱动。

  • 近期进展

    https://dellaert.github.io/NeRF/

带着学习决断性策略且克服离散化缺点的目标,我们近期在 CoRL 2021 上发布了“隐性行为克隆 (Implicit Behavioral Cl

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值