作者选择了由 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 三位大佬撰写的《Deep Learning》(人工智能领域的经典教程,深度学习领域研究生必读教材),开始深度学习领域学习,深入全面的理解深度学习的理论知识。
在之前的文章中介绍了深度学习中用到的数学基础和强化学习的概念,本文将开始介绍现代深度学习中用于解决实际应用的实践。
【一文读懂】深度学习技术谱系:探索生成式AI的核心模型(一) 基础技术图谱
【生成式AI】理解深度学习和机器学习的数学基础:线性代数
【万字长文】理解深度学习和机器学习的数学基础:概率论和信息论
【学习笔记】理解深度学习和机器学习的数学基础:数值计算
【学习笔记】理解深度学习和机器学习的关系
【学习笔记】深度学习网络-深度前馈网络(MLP)
一、深度模型优化的背景与意义
1.1 什么是模型优化
在机器学习中,我们通常拥有大量数据和一个可学习的模型。模型优化(Model Optimization)指的是在给定的数据集上,通过某种评价指标(例如损失函数、准确率等)来调整模型内部可学习参数,使之在训练数据上表现尽可能好,同时也具备一定的泛化能力。换言之,在已知的训练样本基础上,模型会自动学习合适的参数,让预测结果更贴近真实目标。
1.2 为什么要优化模型
我们往往无法显式地掌握真实的数据分布。实际上,数据只以离散样本的形式呈现,这就意味着我们需要通过对这些样本的分析,找到一条“最优的”或者足够好的参数配置来解释和预测数据趋势。优化技术不仅仅是为了让模型“拟合”已有数据,更承担着在噪声和有限样本下做出合理预测的重任。
1.3 深度学习中的特殊挑战
与普通的机器学习算法相比,深度学习模型因为包含多层非线性变换,参数数量巨大,结构复杂,导致其优化过程往往面临以下挑战:
- 非凸性:多层神经网络的损失函数通常是非凸的,局部极小值、鞍点等问题比较常见。
- 维度与规模:大量的参数使得搜索空间极其宽广,传统的优化方法需要结合梯度信息,否则无法在高维空间中有效探索。
- 训练效率:由于数据规模庞大,单纯依靠全量数据进行每一步的参数更新在现实中并不高效,故需使用小批量(mini-batch)或随机(stochastic)方式的梯度下降来节省计算成本。
- 超参数选择:学习率、动量参数、正则化系数等都会对模型收敛产生显著影响,如何合理设定并动