正则化防止过拟合,提高模型的泛化能力。
1. 线性回归
常见损失函数
可用最小二乘法求得最优解
但如果协方差矩阵不可逆,目标函数最小化导数为0时有无穷解,无法求得最优解。特别是p > n时,难以求得最优解,也有过拟合问题。
因此需要对w做限制,使得最优解空间变小,即进行正则化。
2. L1-范式(Lasso)
Lasso的稀疏结果可以用来进行特征选择,选择非零的维度。
稀疏性在提高模型的准确性以及降低overfitting方面都很有作用。
稀疏约束。L0最直观,约束非0元素的个数不大于k。但0范式不连续且非凸,是一个组合优化问题,找出目标函数最小值对应的系数组合为一个NP问题。
L1是L0范式的最优凸近似,也可以达到稀疏的效果。
L1范式在0点连续不可导,求解困难。
最小角回归(LAR)和forward stagewise selection可以和Lasso产生差不多的效果。
Least angle regression对于m维度的数据,最多只要m步就可以把所有的维度都选上,因此在迭代次数上是非常小的。每次沿着角平分线的方向走,可以计算在一个方向上走多远,每次选择都可以最优策略地加进一个维度,使得最多m步就可以结束算法。