强化学习之TD3(pytorch实现)

参考视频:https://www.bilibili.com/video/BV1EK41157fD/?spm_id_from=333.788.recommend_more_video.-1

原论文:https://arxiv.org/abs/1802.09477

价值函数优化学习主线:Q-learning→DQN→DDPG→TD3→SAC

其中SAC和TD3算是目前很好的两个强化学习算法了,有必要掌握。
Q-Learning,DQN和DDPG请可以参考我之前的文章:强化学习实践教学

首先DDPG是对DQN的扩展,使得只能用于离散动作空间的DQN扩展到连续动作空间,在方法上同样运用了经验回放和Target网络,同时是一个Actor-Critic方法,因此存在四个网络。

TD3也叫做Twin Delayed DDPG,全称Twin Delayed Deep Deterministic Policy Gradient。是基于DDPG的改进。同样DDPG也存在着跟DQN相同的缺陷,就是由于采用的是max最大动作价值的方式进行更新,使得动作价值远比实际要高(overestinmate),使得训练不稳定。因此TD3提出了三种改进。

Clipped Double_Q Learning

TD3使用了两个Q网络进行学习,因此是“twin”。而且采用两个网络中动作价值Q较小的值进行更新。两个网络同时使用一个target网络,因此它们同时都会产生一个预测值,我们只用预测值中较小的来对网络进行更新。

“Delayed” Policy Updates

TD3更新策略网络(及其Target网络)的频率要比价值网络慢,论文中推荐更新两次价值网络才更新一次策略网络。这样可以让两者解耦,关联度降低,从而可以克服overestinmation。

Target Policy Smoothing

TD3在策略网络的target网络中引入了噪声,让其更加积极去探索Q价值网络的错误。
a T D 3 ( s ′ ) = c l i p ( μ θ , t a r g ( s ′ ) + c l i p ( ϵ , − c , c ) , a l o w , a h i g h ) , ϵ ~ N ( 0 , σ ) a_{TD3}(s') = clip(μ_{\theta,targ}(s') + clip(\epsilon,-c,c) ,a_{low},a_{high}),\epsilon ~ N(0,\sigma) aTD3(s)=clip(μθ,targ(s)+clip(ϵ,c,c),alow,ahigh),ϵN(0,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微笑小星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值