天授强化学习库了解

最新推荐文章于 2025-08-14 12:19:48 发布

解忧AI铺

最新推荐文章于 2025-08-14 12:19:48 发布

阅读量747

点赞数 24

CC 4.0 BY-SA版权

分类专栏： Tianshou（天授）强化学习库文章标签：强化学习人工智能

2 篇文章

订阅专栏

请添加图片描述
博主是一名刚入门强化学习方向的小白，经过一段时间的摸索和询问，在众多强化学习库中选择了天授，主要目的也是想要系统地从代码底层去了解强化学习的运转机制。

如果已经是有很好基础的大佬，直接面对各种算法以及后面的调参是没有问题的，但是对于小白来说，我觉得还是有必要借助一个平台来系统地学习一些知识，就比如说各个函数的调用关系、算法的拓展过程、buffer机制的设计、神经网络的作用……

一、天授库的基本简介

以下摘自于github主页中作者团队对天授的介绍：

“天授”意指上天所授，引申为与生具有的天赋。天授是强化学习平台，而强化学习算法并不是向人类学习的，所以取“天授”意思是没有老师来教，而是自己通过跟环境不断交互来进行学习。

在这里插入图片描述

1、模块化与灵活性

提供 低层接口，支持算法开发者自由定制和扩展，同时保持类型安全（Type-safe）。

例如，可轻松替换网络结构、采样策略或优化器。

2、高性能训练

优化了数据收集和策略更新的并行效率，比许多主流 RL 库（如 Stable Baselines3）更快。

支持多进程异步采样（Vectorized Environment）。

3、广泛的算法支持

在线 RL：DQN、PPO、SAC、TD3 等（On/Off-Policy）。

离线 RL：CQL、BCQ 等。

实验性支持：多智能体 RL（MARL）、基于模型的 RL（MBRL）。

4、用户友好接口

高层 API 只需几行代码即可训练自定义环境。

Github链接：https://github.com/thu-ml/tianshou

Gitee链接：https://gitee.com/mirrors/Tianshou

两个链接的内容是一样的，为防止Github网站临时登录不上，放了一个国内的Git链接。

DQNPolicy - Deep Q-Network
DQNPolicy - Double DQN
DQNPolicy - Dueling DQN
- BranchingDQNPolicy - Branching DQN
- C51Policy - Categorical DQN
RainbowPolicy - Rainbow DQN
QRDQNPolicy - Quantile Regression DQN
IQNPolicy - Implicit Quantile Network
FQFPolicy - Fully-parameterized Quantile Function