ADAM优化器
常用优化器之一
1. 基本原理
可以看作是RMSProp算法的改进,加入了梯度滑动平均和偏差纠正。
1.1 梯度滑动平均
RMSProp的梯度平方积累通过平滑常数平滑得到,对梯度本身并不做平滑处理,ADAM对梯度也进行了平滑处理。
1.2 偏差纠正
简单理解就是为了避免让平滑后的华东均值过于靠近0,这里做了扰动处理。
2. 参数含义
参数很多,常用的参数一般有params和lr,优化器的参数设置往往比较固定,下面列举一个比较常用的使用方法。
torch.optim.Adam(
params,#模型里需要被更新的参数
lr = 0.001 # 学习率
betas=(0.1, 0.999),# 平滑常数
eps