【强化学习入门笔记】 2.5 Sarsa和Q-learning-CSDN博客

本文链接：https://blog.csdn.net/2403_86993842/article/details/144994979

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.

2.5.1 Sarsa系列

之前介绍的时序差分算法是用来计算给定策略 $π\pi$ 和其状态 $s$ 的状态值期望 $vπ(s)v_\pi(s)$ , 那么能不能直接估计动作值期望呢? 这也就是Sarsa方法.

2.5.1.1 Sarsa

给定策略 $π\pi$ , 我们可以用以下算法估计动作值:

$q_{t+1}\left(s_t, a_t\right)=q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q_t\left(s_t, a_t\right)-\left(r_{t+1}+\gamma q_t\left(s_{t+1}, a_{t+1}\right)\right)\right],$

这就是Sarsa算法, 它的名字来源于上式的输入: $(st,at,rt+1,st+1,at+1)\left(s_t, a_t, r_{t+1}, s_{t+1}, a_{t+1}\right)$ .

实际上, Sarsa算法是一种随机近似方法, 用于求解使用动作值表达的贝尔曼公式:

$q_\pi(s, a)=\mathbb{E}\left[R+\gamma q_\pi\left(S^{\prime}, A^{\prime}\right) \mid s, a\right], \quad \text { for all }(s, a) .$

2.5.1.2 Expected Sarsa

如果将TD目标改成期望, 就是Expected Sarsa:

$q_{t+1}\left(s_t, a_t\right)=q_t\left(s_t, a_t\right)-\alpha_t\left(s_t, a_t\right)\left[q_t\left(s_t, a_t\right)-\left(r_{t+1}+\gamma \mathbb{E}\left[q_t\left(s_{t+1}, A\right)\right]\right)\right]$

其中TD目标项中的期望定义为:

$\mathbb{E}\left[q_t\left(s_{t+1}, A\right)\right]=\sum_a \pi_t\left(a \mid s_{t+1}\right) q_t\left(s_{t+1}, a\right) \doteq v_t\left(s_{t+1}\right)$

Sarsa中只计算一个 $a_{t+1}$ 带来的动作值 $q_t(s_{t+1}, a_{t+1})$ , Expected Sarsa完整的计算了状态值 $vt(st+1)v_t\left(s_{t+1}\right)$

同样, Expected Sarsa也是计算一个贝尔曼公式:

$q_\pi(s, a)=\mathbb{E}\left[R_{t+1}+\gamma \mathbb{E}\left[q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_{t+1}\right] \mid S_t=s, A_t=a\right], \\ \quad \text { for all } s, a .$