噪声环境下的过定情况与泛化分析
立即解锁
发布时间: 2025-09-01 01:37:17 阅读量: 10 订阅数: 12 AIGC 


数据科学的数学基石
### 噪声环境下的过定情况与泛化分析
#### 1. 过定情况中的噪声影响
在实际的数据映射问题中,通常假设存在从输入 $x$ 到输出 $y$ 的“真实”映射。然而,在现实里,这种映射会受到多种因素的干扰而发生扭曲:
- **测量噪声**:输入和输出的测量过程中可能会引入噪声。
- **近似误差**:给定的参数化映射(如线性回归或神经网络)只能有限精度地逼近真实映射。
- **非平稳过程**:在数据收集期间,真实映射可能会发生变化。
这些因素共同导致了无法完全解释的残差,进而产生了残差误差。以多项式函数为例,若用四阶多项式去逼近五阶多项式,当训练集矩阵 $X$ 由变量 $s$ 的零次到四次幂组成(列长度 $N = 5$)时,就无法实现精确拟合。在欠定和恰好确定的情况下,使用特定映射(4.9)可以实现对训练集的完美拟合,但当 $K > N$ 时,任务变为过定,近似误差就不可避免了。
当存在噪声或者真实映射无法被给定映射精确逼近时,对训练集的完美拟合是不可行的。若训练样本数量使得任务过定,那么训练集上的近似误差就必然存在。
#### 2. 高斯噪声的影响分析
若噪声为高斯类型(即加性、训练样本间独立且与输出不相关),其影响可以更精确地分析。在线性情况下,预测输出的形式为:
$y = Bx + ε = η + ε$ (4.35)
它由确定性部分 $η = Bx$ 和噪声部分 $ε$ 组成,且两者相互独立。为简化分析,我们只考虑噪声部分 $ε$ 的“预测”。
训练集的预测偏差可以用矩阵表示为:
$E = Y - BX$ (4.36)
在恰好确定的情况下,$E = Y - YX^{-1}X = Y - Y = 0$ (4.37),这意味着参数完全拟合了噪声,这并非理想结果。在欠定矩阵 $B$ 的情况下,偏差同样为零:$E = Y - BX = Y - Y(X'X)^{-1}X'X = 0$ (4.38)。而在过定情况下:
$E = Y - BX = Y - YX'(XX')^{-1}X = Y[I - X'(XX')^{-1}X]$ (4.39)
为了理解这个解的性质,我们引入线性代数中的重要概念——奇异值分解(SVD)。任何 $(N × K)$ 矩阵 $A$ 都可以分解为三个因子:
$A = UDV'$ (4.40)
在紧凑形式下,矩阵 $U$ 和 $V$ 的列是正交归一的,维度分别为 $H × N$ 和 $H × K$,$H$ 是矩阵 $A$ 的秩,矩阵 $D$ 是 $H × H$ 的对角矩阵,其对角元素为正实数,通常按从左上角到右下角的顺序降序排列,这些对角元素被称为奇异值。矩阵 $A$ 还可以表示为:
$A = \sum_{i = 1}^{H} u_id_iv_i'$ (4.41)
这被称为矩阵 $A$ 的谱分解,它有助于指出矩阵 $A$ 的重要(奇异值较大)和不重要(奇异值较小)的分量。矩阵的伪逆可以简单表示为:
$A^+ = VD^+U'$ (4.42)
其中对角矩阵 $D^+$ 的非零对角元素是 $D$ 对应元素的倒数,$D$ 的零对角元素保持为零。
将奇异值分解应用于过定情况下预测值与测量输出值的偏差(4.39),可得:
$E = Y[I - X^+X] = Y[I - VV'] = Y[I - \sum_{i = 1}^{H} v_iv_i']$ (4.44)
在过定情况下,输入数据矩阵 $X$ 的秩 $H$ 小于 $K$。通常,预测偏差取决于输出矩阵 $Y$ 的值,一些输出模式向量与投影空间重合,这些向量更容易预测。
若输出模式仅由单位方差的白噪声组成,在 $K = N$(恰好确定情况)时可以实现完美拟合,但这只是一种假象。对于 $K > N$(过定情况),$K$ 维的白噪声空间会被投影到 $N$ 维子空间,只有 $N$ 个随机值的子集可以被拟合,其余 $K - N$ 个则不能。$K$ 个训练示例在标准差为 $σ$、方差为 $σ^2$ 的白噪声下可达到的均方误差(MSE)为:
$\frac{K - N}{K}σ^2$ (4.45)
方差的大小通常是未知的,它只能在知道真实模型的情况下进行估计,而真实模型又需要足够大的训练集才能确定。因此,(4.45)项的真实大小无法事先得知,在训练过程中也无法考虑,只有 $\frac{N}{K}$ 和 $\frac{K - N}{K}$ 本身具有参考价值,它们能告诉我们由于训练集过小,有多少噪声被拟合而变得不可见。
#### 3. 过定情况下训练集拟合原则
从均方误差(MSE)的角度来看,最佳拟合既包括真实的输出数据模式,也包括噪声,尽管拟合噪声并非我们所期望的。在接近恰好确定的情况(即训练示例数量 $K$ 仅略大于训练模式向量宽度 $N$)下,对噪声的拟合更为明显。而对于较大的 $K$,这种影响会减小,拟合会趋近于给定单个输入模式下真实模型的最佳可能近似。
对于非线性映射,也遵循类似的规律,但存在一些额外的问题使得排除噪声进行拟合变得困难:
- **非线性类型影响**:拟合非线性依赖关系会受到非线性类型的影响,某些非线性难以用其他类型的非线性来表示。
- **优化困难**:线性映射的误差最小值可以通过解析形式得到,而非线性映射的误差最小值只能通过数值优化来寻找,这是一项具有挑战性的任务,取决于映射类型。如果所使用的算法无法达到真正的误差最小值,就难以根据上述比例来控制对噪声的不良拟合。
为了检查优化算法与过定程度之间的相互作用,可以采用以下步骤:
1. **选择过定结构**:选择一个具有足够过定程度的结构,即参数数量 $P$ 是给定训练集大小 $K$ 下约束数量 $MK$ 的一小部分(例如,最大为 25%),也就是过定因子 $f = \frac{MK}{P}$ 至少为 4。
2. **定义欠定训练集**:定义一个缩减的训练集,包含 $K_u$ 个具有代表性的样本,使得任务明显欠定(例如,过定因子为 0.5,即 $K_u = \frac{1}{2}\frac{P}{M}$)。
3. **定义适度过定训练集**:定义一个中间变体的训练集,包含 $K_o$ 个样本,使得任务略微过定(例如,过定因子为 2,即 $K_o = 2\frac{P}{M}$)。
比较这些训练集所达到的误差最小值,可以得到以下见解:
- **过定情况误差**:过定情况下的最小值应该接近零(相对于其他两个最小值)。如果不是这样,可能是数据受到极端非线性的影响而无法建模,或者优化算法收敛性较差,无法找到正确的零误差解。
- **参数有效性判断**:完整训练集拟
0
0
复制全文
相关推荐










