误差和梯度下降

原创

已于 2022-11-19 01:48:06 修改 · 1.5k 阅读

6 ·

CC 4.0 BY-SA版权

于 2022-11-19 01:14:56 首次发布

Datawhale开源学习，机器学习课程，项目地址：https://github.com/datawhalechina/leeml-notes

之前讲了线性模型，提到了误差，那么误差来自哪里？本节内容将介绍「偏差」、「方差」对模型拟合度的影响，同时介绍一下交叉验证、梯度下降法。

Estimator

$y^\widehat{y}$ 表示那个真正的function，而 $f^*$ 表示这个 $f^\widehat{f}$ 的估测值estimator，就好像在打靶， $f^\widehat{f}$ 是靶的中心点，收集到一些data做training以后，你会得到一个你觉得最好的function即 $f^*$ ，这个 $f^*$ 落在靶上的某个位置，它跟靶中心有一段距离，这段距离就是由bias和variance决定的。

实际上对应着物理实验中「系统误差」和「随机误差」的概念，假设有n组数据，每一组数据都会产生一个相应的 $f^*$ ，此时bias表示所有 $f^*$ 的平均落靶位置和真值靶心的距离，variance表示这些 $f^*$ 的集中程度

Bias and Variance of Estimator

假设独立变量为 $x$ (这里的 $x$ 代表每次独立地从不同的training data里训练找到的 $f^*$ )，那么，总体期望 $E (x) = u$ ；总体方差 $Var(x)=σ2Var(x)=\sigma^2$

用样本均值 $x‾\overline{x}$ 估测总体期望 $u$

由于我们只有有限组样本 ${x^1,x^2,...,x^N\}$ ，故样本均值 $x‾=1N∑i=1Nxi≠μ\overline{x}=\frac{1}{N}\sum\limits_{i=1}^{N}x^i \neq \mu$ ；样本均值的期望 $E(x‾)=E(1N∑i=1Nxi)=μE(\overline{x})=E(\frac{1}{N}\sum\limits_{i=1}^{N}x^i)=\mu$ ; 样本均值的方差 $Var(x‾)=σ2NVar(\overline{x})=\frac{\sigma^2}{N}$ 。样本均值 $x‾\overline{x}$ 的期望是总体期望 $μ\mu$ ，也就是说 $x‾\overline{x}$ 是按概率对称地分布在总体期望 $μ\mu$ 的两侧的；而 $x‾\overline{x}$ 分布的密集程度取决于N，即数据量的大小，如果N比较大， $x‾\overline{x}$ 就会比较集中，如果N比较小， $x‾\overline{x}$ 就会以 $μ\mu$ 为中心分散开来（也就是说，对期望而言，期望值 $μ\mu$ 为图像的对称轴，期望值 $μ\mu$ 越大，越偏离对称轴 $x = 0$ ；同时对方差而言，N越大，方差越小，图像越「高瘦」；N越小，方差越大，图像越「矮胖」，所以方差反应的是数据的集中或离散程度）

综上，样本均值 $x‾\overline{x}$ 以总体期望 $μ\mu$ 为中心对称分布，可以用来估测总体期望 $μ\mu$ 。

用样本方差 $s^2$ 估测总体方差 $σ2\sigma^2$

由于我们只有有限组样本 ${x^1,x^2,...,x^N\}$ ，故样本均值 $x‾=1N∑i=1Nxi\overline{x}=\frac{1}{N}\sum\limits_{i=1}^{N}x^i$ ；样本方差 $s2=1N−1∑i=1N(xi−x‾)2s^2=\frac{1}{N-1}\sum\limits_{i=1}^N(x^i-\overline{x})^2$ ；样本方差的期望 $E(s2)=N−1Nσ2≠σ2E(s^2)=\frac{N-1}{N}\sigma^2 \neq \sigma^2$ ，同理，样本方差 $s^2$ 以总体方差 $σ2\sigma^2$ 为中心对称分布，可以用来估测总体方差 $σ2\sigma^2$ ，而 $s^2$ 分布的密集程度也取决于 $N$ 。

现在我们要估测的是靶的中心 $f^\widehat{f}$ ，每次collect data训练出来的 $f^*$ 是打在靶上的某个点；产生的error取决于：

多次实验得到的 $f^*$ 的期望 $f‾\overline{f}$ 与靶心 $f^\widehat{f}$ 之间的bias—— $E(f^*)$ ，可以形象地理解为瞄准的位置和靶心的距离的偏差
多次实验的 $f^*$ 之间的variance—— $Var(f^*)$ ，可以形象地理解为多次打在靶上的点的集中程度

误差

方差

$f^*$ 的variance是由model决定的，一个简单的model在不同的training data下可以获得比较稳定分布的 $f^*$ ，而复杂的model在不同的training data下的分布比较杂乱（如果data足够多，那复杂的model也可以得到比较稳定的分布）

在这里插入图片描述

如果采用比较简单的model，那么每次在不同data下的实验所得到的不同的 $f^*$ 之间的variance是比较小的，就好像说，你在射击的时候，每次击中的位置是差不多的，就如同下图中的linear model，100次实验找出来的 $f^*$ 都是差不多的。但是如果model比较复杂，那么每次在不同data下的实验所得到的不同的 $f^*$ 之间的variance是比较大的，它的散布就会比较开，就如同图中含有高次项的model，每一条 $f^*$ 都长得不太像，并且散布得很开。

QUESTION: 那为什么比较复杂的model，它的散布就比较开呢？比较简单的model，它的散布就比较密集呢？

原因其实很简单，其实前面在讲regularization正则化时也提到了部分原因。简单的model实际上就是没有高次项的model，或者高次项的系数非常小的model，这样的model表现得相当平滑，受到不同的data的影响是比较小的。举一个很极端的例子，我们的整个model(function set)里面，只有一个function: f=c，这个function只有一个常数项，因此无论training data怎么变化，从这个最简单的model里找出来的 $f^*$ 都是一样的，它的variance就是等于0