强化学习之TD3（pytorch实现）

最新推荐文章于 2025-07-20 13:05:04 发布

微笑小星

最新推荐文章于 2025-07-20 13:05:04 发布

阅读量5.9k

点赞数 14

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签： pytorch 深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tianjuewudi/article/details/120626544

参考视频：https://www.bilibili.com/video/BV1EK41157fD/?spm_id_from=333.788.recommend_more_video.-1

原论文：https://arxiv.org/abs/1802.09477

价值函数优化学习主线：Q-learning→DQN→DDPG→TD3→SAC

其中SAC和TD3算是目前很好的两个强化学习算法了，有必要掌握。
Q-Learning，DQN和DDPG请可以参考我之前的文章：强化学习实践教学

首先DDPG是对DQN的扩展，使得只能用于离散动作空间的DQN扩展到连续动作空间，在方法上同样运用了经验回放和Target网络，同时是一个Actor-Critic方法，因此存在四个网络。

TD3也叫做Twin Delayed DDPG，全称Twin Delayed Deep Deterministic Policy Gradient。是基于DDPG的改进。同样DDPG也存在着跟DQN相同的缺陷，就是由于采用的是max最大动作价值的方式进行更新，使得动作价值远比实际要高（overestinmate），使得训练不稳定。因此TD3提出了三种改进。

Clipped Double_Q Learning

TD3使用了两个Q网络进行学习，因此是“twin”。而且采用两个网络中动作价值Q较小的值进行更新。两个网络同时使用一个target网络，因此它们同时都会产生一个预测值，我们只用预测值中较小的来对网络进行更新。

“Delayed” Policy Updates

TD3更新策略网络（及其Target网络）的频率要比价值网络慢，论文中推荐更新两次价值网络才更新一次策略网络。这样可以让两者解耦，关联度降低，从而可以克服overestinmation。

Target Policy Smoothing

TD3在策略网络的target网络中引入了噪声，让其更加积极去探索Q价值网络的错误。
$a_{TD3}(s') = clip(μ_{\theta,targ}(s') + clip(\epsilon,-c,c) ,a_{low},a_{high}),\epsilon ～ N(0,\sigma)$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

微笑小星 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。