过拟合形象确实是最大似然方法的一个不好的性质,但我们在使用贝叶斯方法对参数进行求和或者积分时,过拟合不会出现。回归线性模型中的最小平方方法也同样会产生过拟合。虽然引入正则化可以控制具有多个参数的模型的过拟合问题,但是这也会产生一个问题,如何确定正则化系数λ\lambdaλ 。
我们已经知道当使用平方损失函数时,最优的预测由条件期望给出即h(x)=E[t∣x]=∫tp(t∣x)dth(x)=E[t|x]=\int tp(t|x)dth(x)=E[t∣x]=∫tp(t∣x)dt
最优的最小平方预测由条件均值给出即E(t∣w)=y(x,w)E(\mathrm{t}|w)=y(x,w)E(t∣w)=y(x,w) 简单的推导如下: 期望损失E[L]=∫∫L(t,y(x))p(x,t)dxdtE[L]=\int\int L(t,y(x))p(x,t)dxdtE[L]=∫∫L(t,y(x))p(x,t)dxdt
选用平方损失L(t,y(x))=(t−y(x))2L(t,y(x))=(t-y(x))^{2}L(t,y(x))=(t−y(x))2,E[L]=∫∫(t−y(x))2p(x,t)dxdtE[L]=\int\int (t-y(x))^{2}p(x,t)dxdtE[L]=∫∫(t−y(x))2p(x,t)dxdt 变分法求解δE(L)δy(x)=2∫(y(x)−t)p(x,t)dt=0\frac{\delta E(L)}{\delta y(x)}=2\int (y(x)-t)p(x,t)dt=0δ