深度强化学习（3）Prioritized Replay DQN

最新推荐文章于 2024-12-05 21:27:36 发布

原创最新推荐文章于 2024-12-05 21:27:36 发布 · 1.9k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#深度强化学习 #DQN

深度强化学习专栏收录该内容

8 篇文章

订阅专栏

本文深入探讨了深度强化学习中的Prioritized Replay DQN算法，该算法通过优化经验回放部分的逻辑，提高了数据利用效率。文章详细解释了如何根据TD偏差确定样本优先级，并在经验回放池中使用SumTree结构进行高效采样。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Prioritized Replay DQN

在深度强化学习（2）Double DQN 中，我们讲到了DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作对应的目标Q值，进而消除贪婪法带来的偏差。今天我们在DDQN的基础上，对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay DQN。

DQN 的成功归因于经验回放和独立的目标网络。Double DQN 改进了Qlearning中的max操作，经验回放仍然采用均匀分布。经验回放时利用均匀分布采样并不是高效利用数据的方法。因为，智能体的经验即经历过的数据，对于智能体的学习并非具有同等重要的意义。智能体在某些状态的学习效率比其他状态的学习效率高。优先回放的基本思想就是打破均匀采样，赋予学习效率高的状态以更大的采样权重。

如何选择权重？⼀个理想的标准是智能体学习的效率越高，权重越大。符合该标准的⼀个选择是TD偏差 $\delta$ 。TD偏差越大，智能体的更新量越大，对我们反向传播的作用越大，因此该处的学习效率越高。而TD偏差小的样本，由于TD偏差小，对反向梯度的计算影响不大。

Prioritized Replay DQN根据每个样本的TD偏差绝对值 $|\delta(t)|$ ，给定该样本的优先级正比于 $|\delta(t)|$ ，将这个优先级的值存入经验回放池。之前的DQN算法，我们仅仅只保存和环境交互得到的样本状态，动作，奖励等数据，没有优先级这个说法。

由于引入了经验回放的优先级，那么Prioritized Replay DQN的经验回放池和之前的其他DQN算法的经验回放池就不一样了。因为这个优先级大小会影响它被采样的概率。在实际使用中，我们通常使用SumTree这样的二叉树结构来做我们的带优先级的经验回放池样本的存储。

具体的SumTree树结构如下图：
在这里插入图片描述
所有的经验回放样本只保存在最下面的叶子节点中，一个节点一个样本。内部节点不保存样本数据。而叶子节点除了保存数据以外，还要保存该样本的优先级，就是图中的显示的数字。对于内部节点每个节点只保存自己的儿子节点的优先级值之和，如图中内部节点上显示的数字。

这样保存有什么好处呢？主要是方便采样。以上面的树结构为例，根节点是42，如果要采样一个样本，那么我们可以在[0,42]之间做均匀采样，采样到哪个区间，就是哪个样本。比如我们采样到了26，在（25-29）这个区间，那么就是第四个叶子节点被采样到。
注意到第三个叶子节点优先级最高，是12，它的区间13-25也是最长的，会比其他节点更容易被采样到。
如果要采样两个样本，我们可以在[0,21],[21,42]两个区间做均匀采样，方法和上面采样一个样本类似。

除了经验回放池，现在我们的Q网络的算法损失函数也有优化，之前我们的损失函数是：

$\frac{1}{m} \sum_{j=1}^{m}\left(y_{j}-Q\left(\phi\left(S_{j}\right), A_{j}, w\right)\right)^{2}$

现在我们新的考虑了样本优先级的损失函数是：

$\frac{1}{m} \sum_{j=1}^{m} w_{j}\left(y_{j}-Q\left(\phi\left(S_{j}\right), A_{j}, w\right)\right)^{2}$

其中 $w_{j}$ 是第 $j$ 个样本的优先级权重。

$w_{j}=\frac{(N * P(j))^{-\beta}}{\max _{i}\left(w_{i}\right)}=\frac{(N * P(j))^{-\beta}}{\max _{i}\left((N * P(i))^{-\beta}\right)}=\frac{(P(j))^{-\beta}}{\max _{i}\left((P(i))^{-\beta}\right)}=\left(\frac{p(j)}{\min _{i} P(i)}\right)^{-\beta}$

我们在样本 $i$ 处的采样概率为：

$P(i)=\frac{p_{i}^{\alpha}}{\Sigma_{k} p_{k}^{\alpha}}$

我们把TD偏差的绝对值 $|\delta(t)|$ $作为p_{i}$ 的值。在实际计算中，我们会取 $p_{i}^{\alpha}$ 。

算法流程
输入：迭代轮数 $T$ ，状态特征维度 $n$ , 动作集 $A$ , 步长 $α$ ，采样权重系数 $β$ ，衰减因子 $γ$ , 探索率 $ϵ$ , 当前Q网络 $Q$ ，目标Q网络 $Q^{\prime}$ , 批量梯度下降的样本数 $m$ ,目标Q网络参数更新频率 $C$ , SumTree的叶子节点数 $N$ 。
输出： $Q$ 网络参数。

随机初始化所有的状态和动作对应的价值 $Q$ . 随机初始化当前 $Q$ 网络的所有参数 $w$ ,初始化目标Q网络 $Q^{\prime}$ 的参数 $w^{\prime}$ = $w$ 。初始化经验回放SumTree的默认数据结构，所有SumTree的 $N$ 个叶子节点的优先级 $p_{j}$ 为0。
for i from 1 to $T$ ，进行迭代。
　a) 初始化 $S$ 为当前状态序列的第一个状态, 拿到其特征向量 $ϕ (S)$
　
　b) 在 $Q$ 网络中使用 $ϕ (S)$ 作为输入，得到 $Q$ 网络的所有动作对应的 $Q$ 值输出。用 $ϵ -$ 贪婪法在当前 $Q$ 值输出中选择对应的动作 $A$
　
　c) 在状态 $S$ 执行当前动作 $A$ ,得到新状态 $S^{\prime}$ 对应的特征向量 $\phi\left(S^{\prime}\right)$ 和奖励 $R$ ，是否终止状态is_end
　
　d) 将 $\left\{\phi(S), A, R, \phi\left(S^{\prime}\right), i s_{-} e n d\right\}$ 这个五元组存入SumTree
　
　e) $S$ = $S^{\prime}$
　
　f) 从SumTree中采样mm个样本 $\left\{\phi\left(S_{j}\right), A_{j}, R_{j}, \phi\left(S_{j}^{\prime}\right), i s_{-} e n d_{j}\right\}, j=1,2 .,,, m$ ，每个样本被采样的概率基于 $P(i)=\frac{p_{i}^{\alpha}}{\Sigma_{k} p_{k}^{\alpha}}$ ，损失函数权重 $w_{j}=(N * P(j))^{-\beta} / \max _{i}\left(w_{i}\right)$ ，计算当前目标Q值 $y_{j}$ ：
　
$y_{j}=\left\{\begin{array}{ll}{R_{j}} & {\text {is end }_{j} \text { is true }} \\ {R_{j}+\gamma Q^{\prime}\left(\phi\left(S_{j}^{\prime}\right), \arg \max _{a^{\prime}} Q\left(\phi\left(S_{j}^{\prime}\right), a, w\right), w^{\prime}\right)} & {i s_{-} e n d_{j} \text { is false }}\end{array}\right.$
　
　g) 使用均方差损失函数 $\frac{1}{m} \sum_{j=1}^{m} w_{j}\left(y_{j}-Q\left(\phi\left(S_{j}\right), A_{j}, w\right)\right)^{2}$ ，通过神经网络的梯度反向传播来更新 $Q$ 网络的所有参数 $w$
　
　h) 重新计算所有样本的TD误差 $\delta_{j}=y_{j}-Q\left(\phi\left(S_{j}\right), A_{j}, w\right)$ ，更新SumTree中所有节点的优先级 $p_{j}=\left|\delta_{j}\right|$
　
　i) 如果 $T$ % $C$ =1,则更新目标Q网络参数 $w^{\prime}$ = $w$
　
　j) 如果 $S^{\prime}$ 是终止状态，当前轮迭代完毕，否则转到步骤 b)