强化学习：算法历程与内容

原创

已于 2024-07-08 18:07:50 修改 · 1k 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #笔记

于 2024-07-04 16:28:41 首次发布

强化学习：算法历程与优劣

1.Monte Carlo 估算V值

内容：

Monte Carlo估算V值

G值：每次到最终状态获得的奖励总和

当前状态为S0，一直到最终状态后，回溯计算G值。一直往前把每一步得到的奖励r都加起来，再乘以一定的折扣率gramma，就能够得到这一条路的G值。同时，一个状态下，有很多条路径可以走到最终状态，所以：
S0状态下的V值=所有G值相加/这个状态下一直到最终状态的路径的个数
所以可以说，V值是G值的平均。

缺点:

如果很难走到最终状态，那么回溯就很慢，求G值就很慢，所以V值更新的也就慢，效率不高。

优化：

不一定要等所有的G值都回来了再求V值，可以回来一个G值就估算一下V值，然后慢慢调整。
怎样调整？
新平均 = 旧平均 + 步长 * （新加入的元素 - 旧平均）
在这里插入图片描述

新平均：新的V值
旧平均：旧的V值
步长：人为设置的超参数
新加入的元素：刚回来的G值

2.TD（时序差分）估算V值

内容：

只需要走N步就进行回溯，而不用走到最终这状态再进行回溯。<

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。