改善机器人模仿学习的决断力

原创

于 2022-01-10 18:40:32 发布 · 454 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #深度学习 #python #神经网络

Google 研究人员提出了一种新的模仿学习方法——隐性行为克隆（Implicit Behavioral Cloning），旨在解决机器人在执行精细任务时的不果断问题。通过训练神经网络，机器人能学习到更精确、果断的行为，无需离散化动作空间，克服了离散化带来的精度限制和维数灾难。在多项模拟和现实世界的任务中，隐性 BC 方法表现优秀，甚至在没有奖励信息的情况下超越了离线强化学习方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文 / Google 机器人团队研究员 Pete Florence 和研究工程师 Corey Lynch

尽管过去几年机器人学习取得了长足的进步，但在尝试模仿精确或复杂行为时，机器人智能体的某些策略仍然难以果断地选择操作。细想这样一项任务：机器人在桌子上滑动滑块，尝试将其精准地放入槽中。有很多可能的方法来完成这项任务，但是每一种方法都需要精确的移动和修正。机器人必须只遵从其中一个选择，还必须能够在每次滑块滑得比预期更远时改变方案。尽管人们可能认为这种任务很简单，但对于基于学习的现代机器人来说，情况往往并非如此，它们经常要学习被专家观察员描述为不果断或不精确的行为。

示例：基线显式行为克隆模型艰难地尝试完成任务，其中机器人需要在桌上滑动滑块，然后将其精准地插入固定装置中

为了让机器人变得更加果断，研究人员常常利用离散化的 (discretized) 动作空间，强制机器人选择选项 A 或选项 B，而不会在所有选项之间摇摆不定。举例来说，离散化是我们近期 Transporter Network 架构的关键元素，也是许多游戏智能体的显著成就中所固有的，比如 AlphaGo、AlphaStar 和 OpenAI 的 Dota 机器人。

AlphaGo
https://ai.googleblog.com/2016/01/alphago-mastering-ancient-game-of-go.html
AlphaStar
https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning
Dota 机器人
https://arxiv.org/abs/1912.06680

但是离散化有自身的局限性，对于在空间连续的现实世界里运行的机器人来说，离散化至少有两个缺点：(i) 它限制了精度，(ii) 它引发了维数灾难 (Curse of dimensionality)，因为沿许多不同的维度离散可能会极大地增加内存和计算要求。与此相关的是，在 3D 计算机视觉领域，许多近期进展是由连续而非离散的表征驱动。