前言
文章内容节选自Offline Reinforcement Learning Tutorial, Review, and Perspectives on Open Problems
正文
在缺乏仿真,并且与环境交互成本高昂时,如何利用之前收集的数据为后续在线地强化学习奠定基础是一个关键问题。离线强化学习是解决方法之一。
强化学习为基于学习的控制提供了一种数学形式。通过强化学习,我们可以自动获得以策略为代表的接近最优的行为技能,以优化用户指定的奖励函数。奖励函数定义了智能体应该做什么,而强化学习算法决定了如何做。几十年来,强化学习算法一直是一个活跃的研究领域,在很多场景中取得了优异的成绩。然而,强化学习算法提供了一个基本的在线学习范式,这也是其广泛采用的最大障碍之一。强化学习的过程包括通过与环境交互反复收集经验,通常是使用最新学习的策略,然后使用这些经验来改进策略。在许多情况下,这种在线交互是不切实际的,原因可能是数据收集昂贵(例如,在机器人、教育代理或医疗保健中)和危险(例如,在自动驾驶或医疗保健中)。此外,即使在在线交互可行的领域中,我们可能仍然倾向于使用以前收集的数据,例如,如果该领域很复杂,并且有效的泛化需要大量的数据集。
事实上,在过去十年里,机器学习方法在一系列实际相关问题上的成功,在很大程度上可以归因于可扩展数据驱动学习方法的出现,这种方法随着使用更多数据的训练而变得越来越好。在线强化学习很难与这种范式相一致。但一旦将深度网络纳入强化学习中,就很容易考虑是否同样的数据驱动学习可以应用到强化学习目标中,从而导致数据驱动的强化学习只利用先前收集的离线数据,而不需要任何额外的在线交互。最近的一些研究表明,这种方法在对话、机器人操作行为和机器人导航技能方面实现数据驱动学习的策略的强大作用。
不幸的是,这种数据驱动的离线强化学习也带来了很大的算法挑战。许多常用的强化学习方法可以从off-policy数据中学习,但是这些方法没