- 博客(5)
- 收藏
- 关注
原创 常见优化器(2025)
本文系统梳理了深度学习中常见的优化器算法,从基础的SGD到当前先进的Muon优化器。首先介绍了梯度下降的基本原理,然后依次分析了SGD、Momentum、AdaGrad、RMSprop、Adam等优化器的数学公式、优缺点及适用场景。特别详细讨论了AdamW对Adam的改进,以及GaLore、APOLLO等新型优化器通过低秩分解、随机投影等技术降低显存占用的方法。最后介绍了Muon优化器采用梯度正交化的创新思路。文章展现了优化器算法从简单梯度下降到自适应学习、内存优化、正交化处理的发展脉络。
2025-08-06 18:18:06
625
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人