
模型理解
已知,在数轴上按照某种概率分布采样,得到了如下图横轴上的红点。依据这些采样点反推出具体的概率分布,这就是我们想要做的事。

概率分布不能凭空猜测,我们假设所要求的概率分布是由多个高斯分布混合而成的,所谓“混合”,可以理解成“加权平均”,数学上可以写成
其中,为简便,用
有了这种几何理解,再看已知的采样点,可以看到明显的两个密集区域,说明这两个密集区域是概率较大的位置,很有可能是高斯分布的峰值位置,因此可以大致画出两个高斯分布的曲线(如上图蓝线和黄线)。
类似的,也可以想象出一个二维平面中的采样点的分布,由此想像出二维高斯分布的叠加。如下图所示,二维高斯分布用“等高线”的形式大致画出。

以上,是对GMM的几何理解。但是高斯分布的维度限制这种几何角度的想象,更进一步理解,需要从概率生成模型的角度理解。高斯混合模型是一种较简单的概率图模型,也是一种简单的生成模型。

我们假设采样点是这样得到的
- 按照一定的概率分布,选取一个高斯分布
- 按照选出的高斯分布来采样
我们假设已经有了
显然
这样,模型的定义就更明确了,我们
- 称
为观测数据,
- 称
为完全数据。
已知
- 称
为模型参数。
于是这个问题就变成了参数求解的问题,由极大似然估计的方法可以得到
其中,对数中包含加法,难以直接优化,需要采用EM算法。
EM算法求解
超越数:学习笔记:期望最大算法zhuanlan.zhihu.com
首先明确联合概率、边缘概率和条件概率
首先根据E-step,写出Q函数
解释一下上面的运算过程,首先将概率写成所有样本连乘的形式,然后将对数上的连乘写成外部的连加,接下来将连加符一步步外提,直至提到最外面。
接下来,以
解释一下上面的运算过程,首先当前,从对
的连加中将
单独分类出来,同时连加内部的表达式中与
有关的也要分离出来。
其中
所以
对
将上式代入到Q函数
解释一下上面的运算过程,就是利用联合概率和条件概率的关系,将复杂表达替换为简便表达的过程
然后根据M-step,对Q函数最大化,优化参数,以求
略去与
写出拉格朗日函数
对求偏导
其中
代入后
于是得到
于是得到
至于
其中