李宏毅机器学习（30）

最新推荐文章于 2021-11-29 15:35:30 发布

原创

最新推荐文章于 2021-11-29 15:35:30 发布 · 305 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了Q-Learning的基本概念，包括Critic的评价方法、Q-learning的算法执行过程，以及一系列优化技巧，如Target Network、Exploration、Replay Buffer、Double DQN、Dueling DQN等。此外，还探讨了在连续动作空间中的Q-learning策略，如Actor+Critic方法和Pathwise derivative policy gradient。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Q-Learing

Critic

相比于Policy，Critics的评价方法很不一样：他有一个状态评价函数 $V^π$ ，输入是Environment的一个状态State，然后根据Actor也就是 $π$ 的情况，输出从当前这个状态开始到结束，一共能获得多少期望的Reward，记为 $V^π(s)$ 。
比如打砖块时， $V^π$ 会输出从现在到结束大概能得多少分。
比如下围棋， $V^π$ 会输出现在的局势下双方胜率是多少。
在这里插入图片描述

那么，如何做这个 $V^π$ 呢？一般有两种办法。

第一种，蒙特卡洛法。先观察 $π$ 玩很多次游戏。然后看到一个state后将结果尽量向某一局游戏结果贴合。
在这里插入图片描述
第二种，时序查分算法。我们只需要知道从状态 $s_a$ 到状态 $s_b$ 需要做Action $a$ ，获得Reward

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。