1 PCA
主成分分析法,一般用于数据降维。WHY?
图像中相邻的像素高度相关,输入数据是有一定冗余的。具体来说,假如我们正在训练的16x16灰度值图像,记为一个256维向量 x∈ℜ256,其中特征值 xj对应每个像素的亮度值。由于相邻像素间的相关性,PCA算法可以将输入向量转换为一个维数低很多的近似向量,而且误差非常小。
1.1 PCA实例
数据:
这些数据已经进行了预处理,使得每个特征x1 和 x2 具有相同的均值(零)和方差。PCA算法将寻找一个低维空间来投影我们的数据。从下图中可以看出,u1 是数据变化的主方向,而 u2是次方向。
也就是说,数据在u1方向上的变化要比在 u2方向上大。为更形式化地找出方向 u1和u2,我们首先计算出矩阵Σ,如下所示:
Σ=1mm∑i=1(x(i))(x(i))T.
假设x的均值为零,那么Σ就是x的协方差矩阵。可以证明,数据变化的主方向u1就是协方差矩阵Σ的主特征向量,而 u2 是次特征向量。
先计算出协方差矩阵Σ的特征向量,按列排放,而组成矩阵U:
U=[|||u1u2⋯un|||]
此处,u1是主特征向量(对应最大的特征值),u2