1.优化基础模型
1.1 训练均方误差与测试均方误差:
- 最常用的评价指标为均方误差,即:MSE=1N∑i=1N(yi−f^(xi))2MSE = \frac{1}{N}\sum\limits_{i=1}^{N}(y_i -\hat{ f}(x_i))^2MSE=N1i=1∑N(yi−f^(xi))2,其中f^(xi)\hat{ f}(x_i)f^(xi) 是样本xix_ixi应用- 建立的模型 f^\hat{f}f^预测的结果。
- 如果所用的数据是训练集上的数据,那么这个误差为训练均方误差;如果使用测试集的数据计算均方误差,那么则称为测试均方误差。
- 一个模型的训练均方误差最小时,不能保证测试均方误差同时也很小。对于这种想法构造的模型,一般在训练误差达到
最小时,测试均方误差一般很大!
上右图所示:模型在训练误差很小,但是测试均方误差很大时,我们称这种情况叫模型的过拟合。
1.2 偏差-方差的权衡:
E(y0−f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε) E\left(y_{0}-\hat{f}\left(x_{0}\right)\right)^{2}=\operatorname{Var}\left(\hat{f}\left(x_{0}\right)\right)+\left[\operatorname{Bias}\left(\hat{f}\left(x_{0}\right)\right)\right]^{2}+\operatorname{Var}(\varepsilon) E(y0−f^(x0))2=Var(