Adam原理

原创已于 2023-03-16 20:57:18 修改 · 2.3k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #人工智能

于 2023-03-16 20:45:27 首次发布

Adam是一种在训练神经网络时常用的优化算法，它结合了动量法和自适应学习率的优点，提供快速收敛且无需手动调整学习率的训练过程。算法通过计算梯度的均值和方差估计，动态调整学习率，以实现更稳定和高效的模型训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Adam

Adam（Adaptive Moment Estimation）是一种自适应的优化算法，用于训练神经网络等机器学习模型。Adam算法是一种基于梯度下降的优化算法，结合了动量方法和自适应学习率的优点，并对学习率进行自适应调整。Adam算法的优点是收敛速度快，不需要手动调整学习率，兼顾了稳定性和速度。

Adam算法的步骤如下：

初始化模型参数 $θ\boldsymbol{\theta}$ 和梯度缓存变量 $S\boldsymbol{S}$ 和 $R\boldsymbol{R}$ ；
对于每个迭代步骤 $t = 1, 2, ...$ 执行以下操作：
a. 从训练集中随机抽取一个小批量样本 $Xt\boldsymbol{X}_t$ 和其对应的标签 $yt\boldsymbol{y}_t$ ；
b. 计算小批量样本的梯度信息 $gt\boldsymbol{g}_t$ ；
c. 更新第一矩估计向量 $St\boldsymbol{S}_t$ 和第二矩估计向量 $Rt\boldsymbol{R}_t$ ；
d. 计算偏置校正后的梯度信息 $gt′\boldsymbol{g}'_t$ ；
e. 更新模型参数 $θ\boldsymbol{\theta}$ 。

Adam算法的具体计算公式如下：

计算梯度信息：
$J(θ,Xt,yt)\boldsymbol{g}_t = \nabla_{\boldsymbol{\theta}}\ J(\boldsymbol{\theta}, \boldsymbol{X}_t, \boldsymbol{y}_t)$
式中， $J(θ,Xt,yt)J(\boldsymbol{\theta}, \boldsymbol{X}_t, \boldsymbol{y}_t)$ 表示目标函数， $Xt\boldsymbol{X}_t$ 和 $yt\boldsymbol{y}_t$ 分别表示一个小批量样本的特征和标签。
计算第一矩估计向量 $St\boldsymbol{S}_t$ 和第二矩估计向量 $Rt\boldsymbol{R}_t$ ：
$St=β1St−1+(1−β1)gt\boldsymbol{S}_t = \beta_1 \boldsymbol{S}_{t-1} + (1-\beta_1) \boldsymbol{g}_t$
$Rt=β2Rt−1+(1−β2)gt2\boldsymbol{R}_t = \beta_2 \boldsymbol{R}_{t-1} + (1-\beta_2) \boldsymbol{g}_t^2$
式中， $St\boldsymbol{S}_t$ 表示第一矩估计向量， $Rt\boldsymbol{R}_t$ 表示第二矩估计向量； $β1\beta_1$ 和 $β2\beta_2$ 是衰减率（decay rate），通常取值为0.9和0.999。
计算偏置校正后的梯度信息 $gt′\boldsymbol{g}'_t$ ：
$S^t=St1−β1t\boldsymbol{\hat{S}}_t = \frac{\boldsymbol{S}_t}{1-\beta_1^t}$
$R^t=Rt1−β2t\boldsymbol{\hat{R}}_t = \frac{\boldsymbol{R}_t}{1-\beta_2^t}$
$gt′=αS^tR^t+ϵ\boldsymbol{g}'_t = \frac{\alpha \boldsymbol{\hat{S}}_t}{\sqrt{\boldsymbol{\hat{R}}_t}+\epsilon}$
式中， $S^t\boldsymbol{\hat{S}}_t$ 和 $R^t\boldsymbol{\hat{R}}_t$ 分别表示经过偏置校正后的第一矩估计向量和第二矩估计向量； $α\alpha$ 表示学习率（learning rate）， $ϵ\epsilon$ 是平滑项,通常设置为 $10^{-8}$ ，用于防止除0。
更新模型参数：
$θt+1=θt−gt′\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \boldsymbol{g}'_t$