一、深入理解迁移学习原理(理论篇)
1.1 特征表示的可迁移性分析
深度卷积神经网络在不同层级学习到的特征具有明显的层次性特征:
网络层级 | 特征类型 | 可迁移性 | 可视化示例 |
---|---|---|---|
Conv1 | 边缘/纹理 | 90%+ | Gabor滤波器响应 |
Conv3 | 局部模式组合 | 80-90% | 几何图形组合 |
Conv5 | 语义部件 | 60-70% | 物体局部结构 |
FC层 | 类别专属特征 | <30% | 完整物体表征 |
数学上,特征可迁移性可以通过最大均值差异(MMD)度量:
MMD(X,Y)=∥1m∑i=1mϕ(xi)−1n∑j=1nϕ(yj)∥H2 MMD(X,Y) = \left\| \frac{1}{m}\sum_{i=1}^m\phi(x_i) - \frac{1}{n}\sum_{j=1}^n\phi(y_j) \right\|_{\mathcal{H}}^2 MMD(X,Y)= m1i=1∑mϕ(xi)−n1j=1∑nϕ(yj) H2
其中ϕ(⋅)\phi(\cdot)ϕ(⋅)表示特征映射函数。
1.2 小样本学习理论边界
根据统计学习理论,使用迁移学习时所需样本量满足:
N≥VC(H)+log(1/δ)ϵ2⋅(1−MMD(Xsrc,Xtar))2 N \geq \frac{VC(\mathcal{H}) + \log(1/\delta)}{\epsilon^2 \cdot (1 - MMD(X_{src}, X_{tar}))^2} N≥ϵ2⋅(1−MMD(Xsrc