个人学习笔记（十一）EM算法及其推广

最新推荐文章于 2022-09-08 11:57:25 发布

万carp

最新推荐文章于 2022-09-08 11:57:25 发布

阅读量413

点赞数

CC 4.0 BY-SA版权

分类专栏：个人学习笔记文章标签：机器学习人工智能算法工程师

本文链接：https://blog.csdn.net/u013899126/article/details/89855555

个人学习笔记专栏收录该内容

18 篇文章

订阅专栏

本文深入探讨了EM算法的工作原理，包括其引入背景、计算过程、收敛性定理以及在高斯混合模型学习中的应用。此外，还介绍了EM算法的推广形式，如广义期望极大算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当模型含有隐变量时，无法使用极大似然估计法或贝叶斯估计法估计模型参数，这时适合使用EM算法。EM算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法。EM算法的每次迭代由两步组成：E步，求期望(expectation)；M步，求极大(maximization)。所以这一算法称为期望极大算法(expectation maximization algorithm)，简称EM算法。

1、EM算法的引入

EM算法通过迭代求 $L(θ)=logP(Y∣θ)L(\theta)=logP(Y|\theta)$ 的极大似然估计。在介绍EM算法之前，需要先定义一个 $Q$ 函数( $Q$ function)，这是EM算法的核心。
完全数据的对数似然函数 $logP(Y,Z∣θ)logP(Y,Z|\theta)$ 关于条件概率分布 $P(Z∣Y,θ(i))P(Z|Y,\theta^{(i)})$ 的期望称为 $Q$ 函数，即
$Q(θ,θ(i))=EZ[logP(Y,Z∣θ)∣Y,θ(i)]Q(\theta,\theta^{(i)})=E_Z[logP(Y,Z|\theta)|Y,\theta^{(i)}]$ 下面是EM算法的计算过程：
首先选择参数的初值 $θ(0)\theta^{(0)}$ ，进入下面的迭代。记 $θ(i)\theta^{(i)}$ 为第 $i$ 次迭代参数 $θ\theta$ 的估计值，在第 $i + 1$ 次迭代的E步中，计算 $Q$ 函数
$Q(θ,θ(i))=EZ[logP(Y,Z∣θ)∣Y,θ(i)]=∑ZlogP(Y,Z∣θ)P(Z∣Y,θ(i))Q(\theta,\theta^{(i)})=E_Z[logP(Y,Z|\theta)|Y,\theta^{(i)}]=\sum_ZlogP(Y,Z|\theta)P(Z|Y,\theta^{(i)})$ 在M步中，求使 $Q$ 函数极大化的 $θ\theta$ ，作为第 $i + 1$ 次迭代的参数估计值 $θ(i+1)\theta^{(i+1)}$
$θ(i+1)=arg⁡max⁡θQ(θ,θ(i))\theta^{(i+1)}=\arg\max_{\theta}Q(\theta,\theta^{(i)})$ 重复上面的步骤直到收敛。
需要注意的是，EM算法对初值是敏感的，每次迭代实际在求 $Q$ 函数（E步）及其极大（M步）。
那么，为什么上面的算法能够求解模型参数呢？该如何理解它呢？我们可以用近似求解对数似然函数的极大化问题来导出EM算法。
首先，我们面对一个含有隐变量的概率模型，目标是极大化不完全数据 $Y$ 关于参数 $θ\theta$ 的对数似然函数，即极大化
$L(θ)=logP(Y∣θ)L(\theta)=logP(Y|\theta)$ 由于概率模型含有隐变量 $Z$ ，因此似然函数可写成
$P(Y∣θ)=∑ZP(Y,Z∣θ)=∑ZP(Y∣Z,θ)P(Z∣θ)P(Y|\theta)=\sum_ZP(Y,Z|\theta)=\sum_ZP(Y|Z,\theta)P(Z|\theta)$ 则对数似然函数便为
$L(θ)=log∑ZP(Y∣Z,θ)P(Z∣θ)L(\theta)=log\sum_ZP(Y|Z,\theta)P(Z|\theta)$ 为了极大化上面的对数似然函数，可以考虑迭代方法，保证每一代所得的 $θ\theta$ 能逐步逼近 $L(θ)L(\theta)$ 的最大值，即在第 $i$ 代时，需要求解新的 $θ\theta$ 使 $L(θ)>L(θ(i))L(\theta)>L(\theta^{(i)})$ 。为此，考虑两者的差
$L(θ)−L(θ(i))=log∑ZP(Y∣Z,θ)P(Z∣θ)−logP(Y∣θ(i))L(\theta)-L(\theta^{(i)})=log\sum_ZP(Y|Z,\theta)P(Z|\theta)-logP(Y|\theta^{(i)})$ 将 $L(θ)L(\theta)$ 变换一下，令
$L(θ)=log∑ZP(Z∣Y,θ(i))P(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i))L(\theta)=log\sum_ZP(Z|Y,\theta^{(i)})\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})}$ 用Jensen不等式将 $l o g$ 移进 $∑Z\sum_Z$ 内的系数右侧，公式为
$其中λj≥0,∑jλj=1log\sum_j\lambda_jy_j\ge\sum_j\lambda_jlogy_j, 其中\lambda_j\ge0,\sum_j\lambda_j=1$ 得
$L(θ)≥∑ZP(Z∣Y,θ(i))logP(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i))L(\theta)\ge\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})}$ 由于 $L(θ(i))L(\theta^{(i)})$ 的公式与 $Z$ 无关，可写作
$L(θ(i))=∑ZP(Z∣Y,θ(i))logP(Y∣θ(i))L(\theta^{(i)})=\sum_ZP(Z|Y,\theta^{(i)})logP(Y|\theta^{(i)})$ 两式相减，得
$L(θ)−L(θ(i))≥∑ZP(Z∣Y,θ(i))logP(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i))P(Y,θ(i))L(\theta)-L(\theta^{(i)})\ge\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y,\theta^{(i)})}$ 为表述方便，引入 $B(θ,θ(i))B(\theta,\theta^{(i)})$ 的表达式
$B(θ,θ(i))=L(θ(i))+∑ZP(Z∣Y,θ(i))logP(Y∣Z,θ)P(Z∣θ)P(Z∣Y,θ(i))P(Y,θ(i))B(\theta,\theta^{(i)})=L(\theta^{(i)})+\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y,\theta^{(i)})}$ 因此有
$L(θ)≥B(θ,θ(i))L(\theta)\ge B(\theta,\theta^{(i)})$ 同时，当 $θ=θ(i)\theta=\theta^{(i)}$ 时，有
$B(θ(i),θ(i))=L(θ(i))+∑ZP(Z∣Y,θ(i))logP(Y,Z∣θ(i))P(Y,Z∣θ(i))=L(θ(i))B(\theta^{(i)},\theta^{(i)})=L(\theta^{(i)})+\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y,Z|\theta^{(i)})}{P(Y,Z|\theta^{(i)})}=L(\theta^{(i)})$ 因此，任何可以使 $B(θ,θ(i))B(\theta,\theta^{(i)})$ 增大的 $θ\theta$ ，都能使 $L(θ)L(\theta)$ 增大，为此我们可以选择令 $B(θ,θ(i))B(\theta,\theta^{(i)})$ 最大的 $θ\theta$ 作为 $θ(i+1)\theta^{(i+1)}$ ，即
$θ(i+1)=arg⁡max⁡θB(θ,θ(i))\theta^{(i+1)}=\arg\max_{\theta}B(\theta,\theta^{(i)})$ 将 $B(θ,θ(i))B(\theta,\theta^{(i)})$ 中与自变量 $θ\theta$ 无关的项去除后，可得
$θ(i+1)=arg⁡max⁡θ∑ZP(Z∣Y,θ(i))logP(Y∣Z,θ)P(Z∣θ)\theta^{(i+1)}=\arg\max_{\theta}\sum_ZP(Z|Y,\theta^{(i)})logP(Y|Z,\theta)P(Z|\theta)$ 合并 $P(Y∣Z,θ)P(Z∣θ)P(Y|Z,\theta)P(Z|\theta)$ 得
$θ(i+1)=arg⁡max⁡θ∑ZP(Z∣Y,θ(i))logP(Y,Z∣θ)\theta^{(i+1)}=\arg\max_\theta\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta)$ 这正是 $Q$ 函数 $Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 的表达式。
因此，在每一次迭代中极大化 $Q$ 函数，等价于极大化 $B(θ,θ(i))B(\theta,\theta^{(i)})$ ，也就是求取对数似然函数 $L(θ)L(\theta)$ 下界的极大值。这样，EM算法在迭代中便保证了对数似然函数 $L(θ)L(\theta)$ 的增加，但无法保证最后找到全局最优值。

2、EM算法的收敛性

关于EM算法的收敛性，有两个定理。
定理1： $P(Y∣θ(i))P(Y|\theta^{(i)})$ 是单调递增的，即
$P(Y∣θ(i+1))≥P(Y∣θ(i))P(Y|\theta^{(i+1)})\ge P(Y|\theta^{(i)})$ 下面证明这一定理。由于对数似然函数 $logP(Y∣θ)logP(Y|\theta)$ 与 $Z$ 无关，可变换其形态，令
$logP(Y∣θ)=∑ZP(Z∣Y,θ(i))logP(Y∣θ)=∑ZP(Z∣Y,θ(i))logP(Y,Z∣θ)P(Z∣Y,θ)logP(Y|\theta)=\sum_ZP(Z|Y,\theta^{(i)})logP(Y|\theta)=\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y,Z|\theta)}{P(Z|Y,\theta)}$ 因此，对数似然函数为
$logP(Y∣θ)=∑ZP(Z∣Y,θ(i))log[P(Y,Z∣θ)−P(Z∣Y,θ)]logP(Y|\theta)=\sum_ZP(Z|Y,\theta^{(i)})log[P(Y,Z|\theta)-P(Z|Y,\theta)]$ 令
$Q(θ,θ(i))=∑ZP(Z∣Y,θ(i))logP(Y,Z∣θ)Q(\theta,\theta^{(i)})=\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta)$ $H(θ,θ(i))=∑ZP(Z∣Y,θ(i))logP(Z∣Y,θ)H(\theta,\theta^{(i)})=\sum_ZP(Z|Y,\theta^{(i)})logP(Z|Y,\theta)$ 则对数似然函数可写作
$logP(Y∣θ)=Q(θ,θ(i))−H(θ,θ(i))logP(Y|\theta)=Q(\theta,\theta^{(i)})-H(\theta,\theta^{(i)})$ 接着便可开始证明下式成立
$logP(Y∣θ(i+1))≥logP(Y∣θ(i))logP(Y|\theta^{(i+1)})\ge logP(Y|\theta^{(i)})$ 由于EM算法的每次迭代均为求取 $Q$ 函数的极大值，因此必有
$Q(θ(i+1),θ(i))≥Q(θ(i),θ(i))Q(\theta^{(i+1)},\theta^{(i)})\ge Q(\theta^{(i)},\theta^{(i)})$ 接着看 $H$ 函数
$H(θ(i+1),θ(i))−H(θ(i),θ(i))=∑ZP(Z∣Y,θ(i))logP(Z∣Y,θ(i+1))P(Z∣Y,θ(i))H(\theta^{(i+1)},\theta^{(i)})-H(\theta^{(i)},\theta^{(i)})=\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Z|Y,\theta^{(i+1)})}{P(Z|Y,\theta^{(i)})}$ 根据Jensen不等式
$H(θ(i+1),θ(i))−H(θ(i),θ(i))≤log∑ZP(Z∣Y,θ(i))P(Z∣Y,θ(i+1))P(Z∣Y,θ(i))H(\theta^{(i+1)},\theta^{(i)})-H(\theta^{(i)},\theta^{(i)})\le log\sum_ZP(Z|Y,\theta^{(i)})\frac{P(Z|Y,\theta^{(i+1)})}{P(Z|Y,\theta^{(i)})}$ 因此可得
$H(θ(i+1),θ(i))−H(θ(i),θ(i))≤log∑ZP(Z∣Y,θ(i+2))=log1=0H(\theta^{(i+1)},\theta^{(i)})-H(\theta^{(i)},\theta^{(i)})\le log\sum_ZP(Z|Y,\theta^{(i+2)})=log1=0$ 这样，便证明了
$logP(Y∣θ(i+1))−logP(Y∣θ(i))≥0logP(Y|\theta^{(i+1)})-logP(Y|\theta{(i)})\ge0$ 即
$P(Y∣θ(i+1))≥P(Y∣θ(i))P(Y|\theta^{(i+1)})\ge P(Y|\theta^{(i)})$ 接下来是第二个定理。定理2：如果 $P(Y∣θ)P(Y|\theta)$ 有上界，则 $L(θ(i))=logP(Y∣θ(i))L(\theta^{(i)})=logP(Y|\theta^{(i)})$ 收敛到某一值 $L^*$ ，在一定条件下EM算法得到的 $θ(i)\theta^{(i)}$ 收敛值 $θ∗\theta^*$ 是 $L(θ)L(\theta)$ 的稳定点。
这个定理就不证明了。定理只能保证参数估计序列 $θ(i)\theta^{(i)}$ 收敛到对数似然函数序列 $L(θ(i))L(\theta^{(i)})$ 的稳定点，不能保证收敛到极大值点。

3、EM算法在高斯混合模型学习中的应用

最后两节只叙述，不证明。
首先介绍高斯混合模型(Gaussian misture model)，高斯混合模型是指具有如下概率分布的模型
$P(y∣θ)=∑k=1Kαkϕ(y∣θk)P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)$ 其中， $αk\alpha_k$ 是系数，满足 $αk≥0,∑k=1Kαk=1\alpha_k\ge0,\sum_{k=1}^K\alpha_k=1$ ； $ϕ(y∣θk)\phi(y|\theta_k)$ 是高斯分布密度， $θk=(μk,σk2)\theta_k=(\mu_k,\sigma_k^2)$ ，具体为
$ϕ(y∣θk)=12πσke−(y−μk)22σk2\phi(y|\theta_k)=\frac{1}{\sqrt{2\pi\sigma_k}}e^{-\frac{(y-\mu_k)^2}{2\sigma_k^2}}$ 接着介绍高斯混合模型参数估计的EM算法。有 $N$ 个观测数据及 $K$ 个分模型，首先取参数的初始值开始迭代。
在E步，计算分模型 $k$ 对观测数据 $y_j$ 的响应度
$γ^jk=αkϕ(yj∣θk)∑k=1Kαkϕ(yj∣θk), j=1,2,⋯ ,N; k=1,2,⋯ ,K\hat\gamma_{jk}=\frac{\alpha_k\phi(y_j|\theta_k)}{\sum_{k=1}^K\alpha_k\phi(y_j|\theta_k)}, j=1,2,\cdots,N; k=1,2,\cdots,K$ 在M步，计算新一轮的模型参数
$μ^k=∑j=1Nγjk^yj∑j=1Nγ^jk, k=1,2,⋯ ,K\hat\mu_k=\frac{\sum_{j=1}^N\hat{\gamma_{jk}}y_j}{\sum_{j=1}^N\hat\gamma_{jk}}, k=1,2,\cdots,K$ $σ^k2=∑j=1Nγ^jk(yj−μ^k)2∑j=1Nγ^jk, k=1,2,⋯ ,K\hat\sigma_k^2=\frac{\sum_{j=1}^N\hat\gamma_{jk}(y_j-\hat\mu_k)^2}{\sum_{j=1}^N\hat\gamma_{jk}}, k=1,2,\cdots,K$ $α^k=∑j=1Nγ^jkN, k=1,2,⋯ ,K\hat\alpha_k=\frac{\sum_{j=1}^N\hat\gamma_{jk}}{N}, k=1,2,\cdots,K$ 重复上面两步直至收敛。

4、EM算法的推广

EM算法还可以解释为 $F$ 函数( $F$ function)的极大-极大算法(maximization-maximization algorithm)，基于这个解释有广义期望极大(generalized expectation maximization, GEM)算法等推广。
首先引进 $F$ 函数。假设隐变量 $Z$ 的概率分布为 $P~(Z)\widetilde{P}(Z)$ ，定义 $F$ 函数如下
$F(P~,θ)=EP~[logP(Y,Z∣θ)]+H(P~)F(\widetilde P,\theta)=E_{\widetilde P}[logP(Y,Z|\theta)]+H(\widetilde P)$ 式中， $H(P~)H(\widetilde P)$ 是分布 $P~(Z)\widetilde P(Z)$ 的熵，即
$H(P~)=−EP~logP~(Z)H(\widetilde P)=-E_{\widetilde P}log\widetilde P(Z)$ 引进 $F$ 函数的概念后，便可给出下面四条定理。
定理1：对于固定的 $θ\theta$ ，存在唯一的分布 $P~θ\widetilde P_\theta$ 使 $F(P~,θ)F(\widetilde P,\theta)$ 极大化，这时的 $P~θ\widetilde P_\theta$ 为
$P~θ(Z)=P(Z∣Y,θ)\widetilde P_\theta(Z)=P(Z|Y,\theta)$ 引理2：若 $P~θ(Z)=P(Z∣Y,θ)\widetilde P_\theta(Z)=P(Z|Y,\theta)$ ，则 $F$ 函数为
$F(P~,θ)=logP(Y∣θ)F(\widetilde P,\theta)=logP(Y|\theta)$ 定理3：如果 $F(P~,θ)F(\widetilde P,\theta)$ 在 $P~∗\widetilde P^*$ 和 $θ∗\theta^*$ 有局部极大值，那么 $L(θ)L(\theta)$ 也在 $θ∗\theta^*$ 有局部极大值，这个结论对全局最大值也使用。
定理4：EM算法的一次迭代，可由 $F$ 函数的极大-极大算法实现。在第 $i + 1$ 次迭代的两步为：对固定的 $θ(i)\theta^{(i)}$ ，求 $P~(i+1)\widetilde P^{(i+1)}$ 使 $F(P~,θ(i))F(\widetilde P,\theta^{(i)})$ 极大化；对固定的 $P~(i+1)\widetilde P^{(i+1)}$ ，求 $θ(i+1)\theta^{(i+1)}$ 使 $F(P~(i+1),θ)F(\widetilde P^{(i+1)},\theta)$ 极大化。
从上面的定理可知，由EM算法与F函数的极大-极大算法得到的 $θ(i)\theta^{(i)}$ 是一致的。这样便有了EM算法的推广，GEM算法。
在GEM算法1中，先初始化参数 $θ(0)\theta^{(0)}$ ，在第 $i + 1$ 次迭代先求 $P~(i+1)\widetilde P^{(i+1)}$ 使 $F(P~,θ(i))F(\widetilde P,\theta^{(i)})$ 极大化，再求 $θ(i+1)\theta^{(i+1)}$ 使 $F(P~(i+1),θ)F(\widetilde P^{(i+1)},\theta)$ 极大化。
在GME算法2中，考虑到有时候求 $θ(i+1)\theta^{(i+1)}$ 使 $Q(θ,θ(i))Q(\theta,\theta^{(i)})$ 极大化比较困难，于是在原本EM算法的基础上放低要求，在M步中求取 $θ(i+1)\theta^{(i+1)}$ 使 $Q(θ(i+1),θ(i))≥Q(θ(i),θ(i))Q(\theta^{(i+1)},\theta^{(i)})\ge Q(\theta^{(i)},\theta^{(i)})$ 。
在GME算法3中，当参数 $θ\theta$ 的维数为 $d$ 时，将EM算法的M步分解为 $d$ 次条件极大化，每次只改变参数向量的一个分量。