数据科学中的泛化、统计条件与正则化策略
立即解锁
发布时间: 2025-09-01 01:37:17 阅读量: 2 订阅数: 4 AIGC 


数据科学的数学基石
### 数据科学中的泛化、统计条件与正则化策略
#### 1. 欠定情况下的泛化问题
在数据建模中,模型选择是一个关键挑战。参数过少可能无法捕捉数据所代表系统的特性,导致泛化能力差。在欠定情况下,使用零偏置解时,存在一个原则上难以克服的问题。虽然可以使训练集的均方误差(MSE)为零,但这种拟合是模糊的,难以保证能找到“真实”模型,从而降低了泛化的期望。
为了改善泛化能力,常使用验证集。验证集的作用是评估泛化性能并用于模型选择,但这会使验证集成为训练集的一部分。如果验证集是从训练集中划分出来的,可能会增加对训练集噪声的有害拟合风险。只有当训练集中有足够数据,使得过定程度(训练样本与约束的比率)足够时,使用验证集才是可取的。
以下是使用验证集的注意事项列表:
- 验证集用于评估泛化性能和模型选择。
- 验证集可能成为训练集的一部分。
- 从训练集划分验证集可能增加噪声拟合风险。
- 训练集需有足够数据保证过定程度。
在真正的欠定情况下,可以通过减少独立参数集,使欠定情况变为过定情况。例如,在线性映射中,映射矩阵 $B$ 的秩有一定规律。$B$ 是输出训练数据矩阵 $Y$(维度为 $M × K$)和输入数据矩阵 $X$(维度为 $N × K$)的伪逆的乘积,其最大秩为 $min (M, N, K)$。在欠定情况($K < N$)下,可简化为 $H = min (M, K)$。
对于 $M < K$,操纵秩的空间较小;对于 $M ≥ K$,有一定潜力将秩从 $K$ 降低到较低值,以减少映射参数对随机噪声的拟合影响。可以对映射矩阵 $B$ 进行奇异值分解(SVD):
$B = UDV'$
删除小于某个阈值的奇异值,可得到低秩矩阵 $B_{red}$:
$B_{red} = UD_{red}V'$
这可以解释为一个具有一个隐藏层的前馈线性网络:
$y = B_2z$
$z = B_1x$
其中,隐藏层激活向量比输入和输出向量都窄,可作为特征提取器。
下面是线性映射矩阵秩的相关表格:
| 矩阵 | 维度 | 最大秩 |
| ---- | ---- | ---- |
| $Y$ | $M × K$ | $min (M, K)$ |
| $X$ | $N × K$ | $min (N, K)$ |
| $X$ 的伪逆 | $N × K$ | $min (N, K)$ |
| $B$ | - | $min (M, N, K)$ |
#### 2. 泛化的统计条件
除了泛化的代数方面,还需要考虑训练集和测试集的统计特性。训练样本可看作是从某个真实分布中抽
0
0
复制全文
相关推荐









