一、优化算法
最优化问题是计算数学中最为重要的研究方向之一。而在深度学习领域,优化算法的选择也是一个模型的重中之重。即使在数据集和模型架构完全相同的情况下,采用不同的优化算法,也很可能导致截然不同的训练效果。优化算法可以分成一阶优化和二阶优化算法,其中一阶优化就是指的梯度算法及其变种。
二、优化算法通用框架
优化算法通用框架:
首先定义待优化参数 W,目标函数 Loss(W),初始学习率 α,每次迭代一个 batcℎ。
然后开始进行迭代优化。对训练数据每个批次:
(1)计算 t 时刻损失函数关于当前参数的梯度:
(2)根据历史梯度计算 t 时刻一阶动量和二阶动量:
(3)计算 t 时刻的下降梯度:
(4)根据下降梯度进行参数更新(计算 𝑡+1 时刻的参数) :
<