- 博客(3)
- 收藏
- 关注
原创 Datawhale X 李宏毅苹果书 AI夏令营 学习笔记(三)
共享参数(parameter sharing):在卷积层中,相同的滤波器在整个输入图像上滑动,共享权重,减少了模型的参数数量。内部协变量偏移:在深度网络的训练过程中,每一层的输入数据分布会随着网络训练的加深而变化,这种变化可能导致模型训练变得困难,批量归一化通过规范化来减少这种偏移,这也是批量归一化有作用的表现。特征归一化(feature normalization)是多种在同样数值范围内采用不同的维度来制造比较好的误差表面,让训练变得比较容易一点的方法的统称。
2024-09-03 22:14:27
762
原创 Datawhale X 李宏毅苹果书 AI夏令营 学习笔记(二)
优化算法经过长期进化,从最原始的梯度下降到最终的学习率调度,逐渐变得更加复杂和高效。其中mit是动量。这个版本里面有动量,其不是顺着某个时刻算出的梯度方向来更新参数,而是把过去所有算出梯度的方向做一个加权总和当作更新的方向。接下来的步伐大小为mitσit。最后通过ηt来实现学习率调度。除了Adam之外,还有许多变体,他们之间的区别主要在于 mit 和 σit 的计算方式,或者学习率调度的策略。优化器的选择往往需要根据具体问题进行实验与调整。
2024-08-31 23:28:06
746
原创 Datawhale X 李宏毅苹果书 AI夏令营 学习笔记(一)
在对模型进行优化时,模型可能会收敛于或,由于这些位置梯度为零,也就是参数对损失微分为零的时候,参数无法更新,训练和优化便会停滞,无法进行下去。局部极小值和鞍点都是,在这个点梯度为0,损失无法下降,但是与局部极小值不同,鞍点可以从其他方向逃离,使模型可以继续优化。
2024-08-27 15:57:20
1454
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人