偏最小二乘法就其本质是在得分空间或者是基于潜在变量的最小二乘法。其中,得分空间的构建称为内模型(inner PLS model),最小二乘法称为外模型(outter PLS model)。无论是得分空间的构建还是最小二乘法,都容易受到异常点的影响。
鲁棒PLS概况
目前,鲁棒PLS算法分为两个大类,第一类是在内模型和外模型动脑经,采用权值对异常的部分进行抑制,这是更为经典的鲁棒算法。但是由于Group effect的存在,如swamping and masking效应,对异常点的估计容易出错,导致权值设置的失败,典型的是Partial robust M-regression。另外一种是对样本分布的鲁棒估计,即 Robust Covariance Matrix。对于正态的分布数据而言,其分布由两部分决定,一个是样本的中心,另一个即是协方差矩阵。前者决定了样本的分布位置,后者表达了分布的形状。典型的算法是RSIMPLS
从运算的速度来说,第一种方法明显占优,从结果来看,第二种方法更有效。但为了更好地估计样本的分布,也需要付出更多的工作。以RSIMPLS为例,首先它要用 Minimum Covariance Determinant算法。从几何的角度来说,这个算法是希望用一个尽可能小的椭圆去圈住给定数量的数据点。由于算法预先排除了一部分数据,再做建模,所有模型具有很高的鲁棒性,同时带来了巨大的运算量。类似的算法还有LTS,LMS,因为这些算法的目标是非凸的存在许多局部最优解。因此,目前的主流算法主要是启发式的解法,采用有限的抽样方式去得到一个近似解,而不是穷举得到精准解。
个人理解精准解并不太重要,关键是能排除掉异常点,那么用一个次优解的模型再去验证所有的样本,将异常排除,正常的放回,在工程应用中已经足够。另外需要注意的是,MCD,LTS这些算法无法直接用于高维数据,像RSIMPLS也是经过PCA降维再做进一步运算。所以,潜在应用条件是,降维后的空间,异常样本和正常样本仍然需要具备足够的差异,这样算法才能有效
更多关于鲁棒偏最小二乘法的情况,可以参考这篇综述,Robust partial least squares regression: Part I, algorithmic developments