Tianshou项目中的离线强化学习实践指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00436/article/details/148440529

Tianshou项目中的离线强化学习实践指南

什么是离线强化学习

离线强化学习(Offline Reinforcement Learning)是一种特殊的强化学习范式，在这种模式下，智能体从一个固定的数据集中学习策略，而不再与环境进行交互。这与传统的在线强化学习形成鲜明对比，后者需要智能体不断与环境交互来收集新数据。

Tianshou项目提供了完整的离线强化学习实现，支持多种算法和应用场景。本文将详细介绍如何在Tianshou框架下进行离线强化学习实践。

连续控制任务实践

数据集准备

在连续控制任务中，Tianshou支持使用标准数据集进行训练。这些数据集通常包含状态、动作、奖励和下一状态等信息，格式统一便于使用。

算法实现

Tianshou目前实现了以下主流离线强化学习算法：

行为克隆(Behavior Cloning, BC)：最简单的模仿学习方法，直接学习数据集中的状态-动作映射关系。
批量约束Q学习(BCQ)：通过约束策略在数据集支持的动作附近选择动作，避免分布外动作带来的问题。
保守Q学习(CQL)：通过正则化Q函数，使其在数据集外的状态-动作对上保持保守估计。
TD3+BC：结合TD3算法和行为克隆的正则项，在保持算法性能的同时避免策略偏离数据集分布。

训练流程

Tianshou提供了专门的offline_trainer用于离线强化学习训练。基本流程如下：

加载数据集到ReplayBuffer
初始化算法和策略
调用offline_trainer进行训练

性能表现

以下是Tianshou中不同算法在HalfCheetah环境下的表现对比：

| 算法类型 | 数据集类型 | 平均回报 | |---------|-----------|---------| | IL | expert | 11355.31| | IL | medium | 5098.16 | | BCQ | expert | 11509.95| | BCQ | medium | 5147.43 | | CQL | expert | 2864.37 | | CQL | medium | 6505.41 | | TD3+BC | expert | 11788.25| | TD3+BC | medium | 5741.13 |

状态归一化技巧

Tianshou实现了状态归一化功能，这对算法性能有稳定提升：

| 数据集 | 使用归一化 | 不使用归一化 | |-------|-----------|-------------| | medium| 5741.13 | 5724.41 | | expert| 11788.25 | 11665.77 |

离散控制任务实践

数据收集方法

对于Atari等离散控制任务，Tianshou提供了数据收集工具：

首先训练一个在线QRDQN智能体作为专家策略
使用该策略与环境交互收集数据，可加入噪声增加数据多样性
将收集的数据保存为ReplayBuffer格式

算法实现与比较

Tianshou在离散任务上实现了以下算法：

模仿学习(IL)：直接学习专家数据中的策略
BCQ：适用于离散动作空间的批量约束Q学习
CQL：离散版本的保守Q学习
CRR：Critic正则化回归算法

性能对比

以Pong和Breakout游戏为例：

Pong游戏表现：

| 算法 | 在线QRDQN | 行为策略 | 离线算法表现 | |-----|----------|----------|-------------| | IL | 20.5 | 6.8 | 20.0 | | BCQ | 20.5 | 6.8 | 20.1 | | CQL | 20.5 | 6.8 | 20.4 |

Breakout游戏表现：

| 算法 | 在线QRDQN | 行为策略 | 离线算法表现 | |-----|----------|----------|-------------| | IL | 394.3 | 46.9 | 121.9 | | BCQ | 394.3 | 46.9 | 64.6 | | CQL | 394.3 | 46.9 | 129.4 |

数据量影响

Tianshou还研究了数据量对算法性能的影响。结果显示，随着数据量减少，算法性能会相应下降，但CQL等算法在小数据量下仍能保持一定性能：

Breakout游戏(10%数据)：

CQL表现：40.8

Breakout游戏(1%数据)：

CQL表现：22.5

高级功能

RL Unplugged数据集支持

Tianshou提供了工具将RL Unplugged数据集转换为Tianshou的ReplayBuffer格式，方便研究者使用这些大规模离线数据集。

转换后的数据集可以直接用于训练：

python3 atari_bcq.py --task BreakoutNoFrameskip-v4 --load-buffer-name ~/.rl_unplugged/datasets/Breakout/run_1-00001-of-00100.hdf5 --buffer-from-rl-unplugged --epoch 12