主要内容
EM代码说明
在1000个用户中,有两种服从不同分布的高斯模型。先验假定只有男女两个类别,即一个是男性部分,一个是女性部分,二者进行混合得到所观测到的1000个数据,即称为高斯混合模型。可以用EM算法进行这4个参数的推断。甚至推断这1000个中,有多少个男性,有多少个女性。
女的样本多一些,均值小,男的样本少一些,但均值大。如下图所示
因此EM算法在解决数据并不完全充分下的参数求解是可行的。
Jensen不等式
若是连续型,则求和变为求积分。
最大似然估计
考虑如下问题
一种欧拉式的说明
、
直到最后一组参数收敛,即这个结果就是所要的。
然后做下面:
之后以上两幅图片不断重复即可,直到收敛为止。
这就是EM算法解决高斯混合模型的最终结论了。
问题解决
1、先验性的假设对于算出的结果产生的影响,有些时候是起决定性的,若真的把男性期望一开始直接给定1米72,女性2米1,则最终实际算出的女性的均值是男性的,男性的均值是女性的。EM算法本身没办法确定这些组分的顺序的。
2、混合性高斯分布是一种单独的一种分布。
求出带未观测数据的模型出来,这就必须要先假设。
最终输出就是最优的参数了。即过程:先给一个参数,然后给一个下界函数,对下界函数求极大值,然后到下一个点了,再给下界值,一直找到最优参数即可。那r这个下界函数如何给定呢?可以发现EM算法只能找到局部最大值,没法找到全局最大值。
Q分布任取的,可以取什么呢?
沿着坐标上升逐步到达局部最优点。
从理论公式推导GMM-高斯混合模型
给定主题,则词是服从多项分布的。
含有隐变量的问题,往往可以用EM算法,但不是唯一的。