【强化学习入门】梯度赌博机算法中，偏好函数更新：梯度上升公式是精确梯度上升的随机近似的证明

枇杷鹭

于 2019-12-13 21:13:50 发布

阅读量1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Reinforcement Learning 文章标签：人工智能深度学习强化学习算法数学证明

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42815609/article/details/103532804

本文证明强化学习入门问题：K摇臂赌博机的梯度赌博机算法中，偏好函数更新公式： $H_{t+1}(A_t) = H_t(A_t) + \alpha (R_t - \overline{R_t})(1-\pi_t(A_t))$ 的合理性。书上可能有些不太好理解，我用较为浅显的语言将每步证明的“why & how”描述出来。

引用自：强化学习（第2版）; [加拿大] Richard S. Sutton, [美国] Andrew G. Barto; 俞凯译

书中提到的摇臂赌博机的所有算法，我已经使用python 3实现，在线浏览ipynb：https://nbviewer.jupyter.org/github/PiperLiu/Reinforcement-Learning-practice-zh/blob/master/practice/01-Stochastic-Multi-Armed-Bandit.ipynb。并上传github，仓库：https://github.com/PiperLiu/Reinforcement-Learning-practice-zh。

前言

在强化学习入门问题：K摇臂赌博机的梯度赌博机算法中，提出了偏好函数。偏好函数本身的值并不重要，重要的是一个动作相比于另一个动作的偏好，因此，选择动作的概率分布使用softmax分布：

$Pr_{A_t = a} = \frac{e^{H_t(a)}}{\sum_{b=1}^{k} e^{H_t(b)}} = \pi_t(a)$

$\pi_t(a)$ 表示动作a在t时刻被选择的概率，所有偏好函数的初始值都相同（可为0）。

则，偏好函数更新遵守如下规则：

$H_{t+1}(A_t) = H_t(A_t) + \alpha (R_t - \overline{R_t})(1-\pi_t(A_t))$	对于被选择的动作 $A_t$	(1)
$H_{t+1}(a) = H_t(a) - \alpha (R_t - \overline(R_t) \pi_t(a))$	对于所有 $\not= A_t$	(2)

其中，a是一个大于0的数，表示步长。 $\overline{R_t}$ 是时刻t内所有收益的平均值，称为基准项。

个人思考：为什么更新偏好函数时要考虑概率呢？ 答：对于(1)式，若本身概率较大，则 $H_{t+1}$ 不会加太多，若本身概率 $\pi_t=1$ ，则 $H_{t+1}$ 不用更新。

上述思考有一定道理，但是这个更新公式的合理性可以在数学上证明。下面开始证明。

证明

在精确梯度上升算法中，有：

$H_{t+1}(a)=H_t(a) + \alpha \frac{\partial \mathbb{E}[R_t]}{\partial H_t (a)}$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。