在现代机器学习的发展历程中,过拟合(Overfitting)始终是亟需克服的重要挑战。其表现如同在训练数据上构建过度复杂的映射函数,虽能实现近乎完美的拟合,但其泛化能力却显著受限,导致模型在测试集或实际应用中表现不佳,暴露出严重的鲁棒性和适应性不足。为了摆脱这一困扰,研究者们提出了种种策略,而其中一个经典又广泛应用的技术,便是L2正则化(L2 Regularization)。
乍一看,L2正则化的原理似乎并不复杂:它在目标函数中加入了一个权重参数平方和的惩罚项,目的在于“惩罚”那些权值绝对值较大的模型。可是,这个看似简单的惩罚项究竟为何就能够显著缓解过拟合呢?为何正则化等机制能够使一个“过度拟合训练集”的模型展现出更优的泛化性能?其背后蕴含着怎样的数学原理与统计学哲学?
1. 什么是过拟合?问题从哪里开始?
在任何一个监督学习问题中,模型的目标就是找到一个函数映射 ,使得对输入 ,输出 尽可能接近真实标记 。然而,当模型的复杂度过高、自由度过多、参数太多、样本不足或样本质量差时,它很容易产生一种现象:在训练集上表现极好,但在测试集上却表现不佳。这种现象被称为“过拟合”。
从直观理解来看,过拟合模型倾向于对训练数据进行机械记忆,而非有效提取并泛化其内在的统计规律和结构特征。它对数据中的噪声、异常值等信息反应过度,导致在新数据上无法泛化。
从数学上看,如果我们用最小化均方误差(M