强化学习:算法历程与内容

强化学习:算法历程与优劣

1.Monte Carlo 估算V值

内容:

Monte Carlo估算V值

G值:每次到最终状态获得的奖励总和

当前状态为S0,一直到最终状态后,回溯计算G值。一直往前把每一步得到的奖励r都加起来,再乘以一定的折扣率gramma,就能够得到这一条路的G值。同时,一个状态下,有很多条路径可以走到最终状态,所以:
S0状态下的V值=所有G值相加/这个状态下一直到最终状态的路径的个数
所以可以说,V值是G值的平均。

缺点:

如果很难走到最终状态,那么回溯就很慢,求G值就很慢,所以V值更新的也就慢,效率不高。

优化:

不一定要等所有的G值都回来了再求V值,可以回来一个G值就估算一下V值,然后慢慢调整。
怎样调整?
新平均 = 旧平均 + 步长 * (新加入的元素 - 旧平均)
在这里插入图片描述

新平均:新的V值
旧平均:旧的V值
步长:人为设置的超参数
新加入的元素:刚回来的G值

2.TD(时序差分)估算V值

内容:

只需要走N步就进行回溯,而不用走到最终这状态再进行回溯。<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值