深度学习（二）_adamw 的更新公式-CSDN博客

本文链接：https://blog.csdn.net/yeyustudy/article/details/81219910

本文介绍了深度学习中的几种关键优化算法，包括mini-batch梯度下降、指数加权平均、带有动量项的梯度下降、RMSprop以及Adam算法，并讨论了如何选择合适的batch大小及学习率衰减策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

算法优化

mini-batch

将庞大的数据集分成许多个batch，遍历这些batch，每个batch使用梯度下降法进行优化
如果batch的数目太大，则每次迭代的时间太长，如果batch的数目为1，则退化为随机梯度下降法，这样就丧失了向量化的加速作用，因此，需要合理选择batch的数目，一般对于较大的数据集，选择为64或128到512，一般是2的整数次幂。

指数加权平均

${v_t} = \beta {v_{t - 1}} + (1 - \beta ){\theta _t}$ ，其大概平均了 $\frac{1}{{1 - \beta }}$ 的数据，其中 $\beta$ 的值常常取为0.9
当权值过大时，初始阶段可能偏差过大，这时可利用 $\frac{{{v_t}}}{{1 - {\beta ^t}}}$ 来去掉偏差

momentum梯度下降法

此种方法的目的是消除随机梯度下降法的上下波动，当计算出dw、db等梯度后，使用 ${v_{dw}},{v_{db}}$ 来代替，使用这些值来更新各个参数

RMSprop算法

此种算法对momentum做了一定的修改，更新公式变为 ${S_{dw}} = \beta {S_{dw}} + (1 - \beta ){(dw)^2}$ ，其权值更新公式变为： $w = w - \alpha \frac{{dw}}{{\sqrt {{S_{dw}}} }}$ ，为了防止权值更新公式中除以0，所以要在除的时候加一个很小的值 $\varepsilon$

Adam算法

结合了上述两种算法，最终权值更新公式变为： $w = w - \alpha \frac{{{V_{dw}}}}{{\sqrt {{S_{dw}}} + \varepsilon }}$ ，其中momentum常用的超参数的值为0.9，RMSprop中常用的超参数的值为0.999，极小值常取的值为 ${10^{ - 8}}$