【待补充内容:P(D)为什么不易计算】
建模的目标:建立拟合数据的分布模型 & 估计模型参数
拟合连续型数据变量:高斯分布等
拟合离散型数据变量:二项分布,多项式分布等
估计模型参数的三种方法:
MLE、MAP、贝叶斯方法
一、MLE
最大似然估计——频率学派
最大似然是一种点估计。
最大化似然的一些限制,这里我们以使用最大化似然求解一元高斯分布的参数为例。实际情况下,最大似然方法会系统性的低估分布的方差。这一种被称为偏置(bias)的现象。它与多项式曲线拟合中的过拟问题有关。注意,最大似然的解:是关于数据集的值的函数。考虑这些量关于具有参数的高斯分布的数据集的期望。很容易就能证明:
所以一般来说,最大似然能对均值做出正确的估计,但是对方差低估了因子。背后的原因在图1.15中说明。
二、MAP
对于参数加入了先验,求得使得后验概率最大的一种可能性,仍然是点估计。
MLE和MAP更忠实于数据,但MAP加入了先验,MLE受数据影响较大,样本较少时,不适合MLE,产生的结果偏差较大,但加入先验并不一定就是最好的,先验也是依赖于人的主观。
三、贝叶斯方法
首先需要明确的是:这里的贝叶斯不同于朴素贝叶斯的贝叶斯,朴素贝叶斯是点估计,且目标不是寻求一个最优解,因此严格意义上没有参数估计的过程,而只有预测的过程,其中使用积分将所有可能的参数值都考虑了进去。可应用一些online的一些任务中。
贝叶斯方法和MAP方法相似在于都加入了先验概率,但不同在于贝叶斯方法考虑了参数的所有可能性,常规方法是对所有的参数求积分得到分母P(D),这属于exact inference,但是对于求解过程的难点在于积分所有的参数是不容易得到的,我们无法使用梯度下降法求解,只能通过一些近似的方式推断得到结果。