Machine Learning-L7-最大熵模型

原创已于 2024-06-30 21:09:26 修改 · 858 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2020-04-18 10:46:06 首次发布

机器学习专栏收录该内容

30 篇文章

订阅专栏

本文深入探讨了最大熵模型的原理，定义及学习方法，对比逻辑回归，解析模型优化过程，适用于分类任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最大熵模型

1. 最大熵原理
2. 最大熵模型定义
3. 最大熵模型
4. 最大熵模型学习
4. 最大熵模型与逻辑回归
总结

1. 最大熵原理

最大熵（Maximum Entropy）原理是概率模型学习的一个准则，认为在所有可能的概率模型（分布）中，熵最大的模型就是最好的模型，在1957年由Edwin Thompson Jaynes提出。

该原理对一个随机事件的概率分布进行预测时，认为预测应当满足全部已知的约束，而对未知的情况不做任何主观假设。此时，概率分布最均匀，预测的风险最小，得到的概率分布的熵最大。

最大熵原理根据以下两个原则解决问题：

满足已知信息（约束条件）
不做任何未知假设（约束外事件等概率发生）

通常用约束条件来确定概率模型的集合，最大熵原理就是满足一定的约束条件下，选择熵最大的模型。
e.g
假设5个盒子ABCDE，奖品就放在这5个盒子中的一个，请问奖品在ABCDE盒子里的概率分别是多少？

已知奖品在其中一个盒子里，约束条件为 $P (A) + P (B) + P (C) + P (D) + P (E) = 1$
由于无其他额外信息，只能假设奖品在每个盒子里的概率都是 $1/5$ ， $P (A) = P (B) = P (C) = P (D) = P (E) = 1/5$

如果知道了额外信息，奖品在A和B中的概率总共为 $3/10$ ，则

约束条件： $\;\; P(C)+P(D)+P(E)=7/10$
按照最大熵等概率的原理： $\;\; P(C) = P(D) = P(E)=7/30$

最大熵原理在对一个随机事件的概率分布进行预测时，预测应当满足全部已知条件，而对未知情况不做任何主观假设。此时概率分布最均匀，信息熵最大，预测的风险最小。常说的不要把所有鸡蛋放到一个篮子里，就是最大熵原理的朴素表达。

2. 最大熵模型定义

假设分类模型是一个条件概率分布 $\mid X)$ ，给定训练集，可以计算：

总体联合分布 $P (X, Y)$ 的经验分布： $\tilde{P}(X=x,Y=y) = \frac {count(X=x,Y=y)}{M}$
边缘分布 $P (X)$ 的经验分布： $\tilde{P}(X=x) = \frac {count(X=x)}{M}$

其中， ${count(X=x,Y=y)}$ 表示训练集中样本 $(x, y)$ 出现的频数， ${count(X=x)}$ 表示训练集中输入 $x$ 出现的频数， $M$ 为训练样本的数量。

特征函数 $f (x, y)$ 描述输入 $x$ 和输出 $y$ 之间的关系，定义如下：
$\begin{cases} 1& {x与y满足某个关系}\\ 0& {otherwise} \end{cases}$

特征函数类似离散数学集合论中的指示函数，指示函数是定义在集合上的函数，用来表示其中哪些元素属于某一子类。

特征函数 $f (x, y)$ 关于经验分布 $\tilde{P}(X,Y)$ 的期望值：
$E_{\tilde{P}}(f) = \sum\limits_{x,y}\tilde{P}(x,y)f(x,y)$
特征函数 $f (x, y)$ 关于条件分布 $\mid X)$ 和经验分布 $\tilde{P}(X)$ 的期望值：

$E_P(f) =\sum_{x,y}P(x,y)f(x,y) \approx \sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)$

如果模型可以从训练集中学习，则假设： $E_{\tilde{P}}(f) = E_{P}(f)$

上式就是最大熵模型学习的约束条件，假如有 $M$ 个特征函数 $f_i(x,y)(i=1,2...,n)$ ，就有 $m$ 个约束条件（可理解为训练集里所有样本对应的 $m$ 个约束条件）。

3. 最大熵模型

假设满足所有约束条件的模型集合为： $\left\{ P \ | \ E_P(f_i) = E _{\tilde{P}}(f_i) ,i = 1,2,…,m \right \}$
条件概率分布 $P (Y ∣ X)$ 上的条件熵为：
$=–\sum_{x,y}P(y,x)\log P(y|x)= –\sum_{x,y}\tilde{P}(x)P(y|x)\log P(y|x)$
模型集合 $C$ 中使条件熵 $H (P)$ 最大的模型称为最大熵模型：
$P^* = \arg\max_{P \in C} H(P)$

4. 最大熵模型学习

最大熵模型定义如下，给定训练集 $\left \{ (x_i,y_i)\right\}_{i=1}^m$ ，特征函数 $f_i(x,y)，i= 1,2…,n$

$\begin{aligned} & \min \sum_{x,y} \tilde{P}(x)P(y \mid x) \log P(y \mid x) \\ & \ s.t. \ \ \ E_p(f_i) = E _{\tilde{P}}(f_i) \\ & \ \ \ \ \ \ \ \ \ \sum_yP(y \mid x) = 1 \end{aligned}$

最大熵模型学习就是求解最大熵模型的过程，最大熵模型学习等价于约束最优化问题。

（1）转化为无约束优化问题

引入拉格朗日乘子，定义拉格朗日函数：
$\begin{aligned} L(P,w) &= -H(P) + w_0\left (1-\sum_yP(y|x) \right ) + \sum^n_{i=1}w_i(E _{\tilde{P}}(f_i) - E_p(f_i))\\ &=\sum_{x,y} \tilde{P}(x)P(y|x)logP(y|x) + w_0\left (1-\sum_yP(y|x) \right ) \\ &\; \; \;+\sum^n_{i=1}w_i\left (\sum_{x,y}\tilde{P}(x ,y)f(x,y) -\sum_{x,y}\tilde{P}(x)p(y|x)f(x,y) \right ) \end{aligned}$
此时，优化目标为： $\min_{P \in C} \max_w L(P,w)$ 原问题满足KKT条件，根据拉格朗日对偶可得其对偶问题： $\max_w \min_{P \in C} L(P,w)$

（2）求解内部极小化问题

$\min_{P \in C} L(P,w)$ 是关于 $w$ 的函数，记作： $\Psi(w) = \min_{P \in C} L(P,w) = L(P_w,w)$ 其解记作： $P_w = arg \min_{P \in C}L(P,w) = P_w(y \mid x)$ 由于求解 $P$ 的最小值 $P_w$ ，令 $\frac{\partial L(P,w) }{\partial P(y|x)}=0$ 可得：
$\begin{aligned} P_w(y|x) &= \frac{1}{Z_w(x) }exp \left ( \sum_{i=1}^n w_if_i(x,y) \right ) \\ Z_w(x) &=\sum _y exp \left ( \sum_{i=1}^n w_if_i(x,y) \right ) \end{aligned}$
$P_w(y \mid x)$ 即为MaxEnt模型，其中 $f_i(x,y)$ 为特征函数， $w_i$ 为特征的权值。

（3）求解外部极大化问题

将 $P_w(y|x)$ 代入 $\Psi(w)$ ，
$\begin{aligned} \Psi(w) &=\sum_{x,y}\tilde{P}(x)P_w(y|x)logP_w(y|x) + \sum^n_{i=1}w_i\left (\sum_{x,y}\tilde{P}(x ,y)f(x,y) -\sum_{x,y}\tilde{P}(x)P_w(y|x)f(x,y) \right )\\ &= \sum_{x,y} \tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_{x,y}\tilde{P}(x)P_w(y|x)\left (logP_w(y|x) - \sum_{i=1}^nw_if_i(x,y) \right) \\ &=\sum_{x,y} \tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_{x,y}\tilde{P}(x)P_w(y|x)logZ_w(x)\\ &=\sum_{x,y} \tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_x\tilde{P}(x)logZ_w(x)\sum_yP_w(y|x)\\ &=\sum_{x,y} \tilde{P}(x,y)\sum_{i=1}^nw_if_i(x,y) +\sum_x\tilde{P}(x)logZ_w(x)\\ \end{aligned}$

模型转化为求 $\Psi(w)$ 的极大化问题，最优解记作 $w^* = arg \max_w \Psi(w)$ 这是是一个凸优化问题，可应用梯度下降法，牛顿法，拟牛顿法等最优化算法。
对于最大熵模型还有一种专用的优化方法，称为改进的迭代尺度法（improved iterative scaling, IIS）。

得到极大化时对应的w向量取值后，带入 $\mid x)$ 和 $w$ 的关系式，就可得到 $\mid x)$ 的最终结果。

4. 最大熵模型与逻辑回归

最大熵模型最后的解的其形式与 $so f t ma x$ 是等价的，又称为对数线性模型（log linear model）。
softmax用于多分类问题，逻辑回归解决二分类问题。因此逻辑回归模型，本质上是最大熵模型。

模型的学习归结为以似然函数为目标函数的最优化问题（对模型进行极大似然估计或正则化的极大似然估计），通常通过迭代方法求解。

数据集 $\left \{ (x_i,y_i)\right\}_{i=1}^m$ ， $n$ 个约束，构建特征函数如下：
$f_i(x,y)= \begin{cases} x_i& {y=1}\\ 0& {y=0} \end{cases}$ 则，
$\begin{aligned} Z_w(x) &=\sum _y exp \left ( \sum_{i=1}^m w_if_i(x,y) \right ) \\ &= exp \left ( \sum_{i=1}^m w_if_i(x,y=0) \right )+exp \left ( \sum_{i=1}^m w_if_i(x,y=1) \right ) \\ &= 1+exp \left ( \sum_{i=1}^m w_ix_i \right ) \\ \\ P_w(y|x) &= \frac{1}{Z_w(x) }exp \left ( \sum_{i=1}^m w_if_i(x,y) \right ) \end{aligned}$

因此，
$\begin{aligned} y=1，\;\;\;\;\;\;\;P_w(y=1\mid x) &= \frac{exp \left ( \sum_{i=1}^m w_ix_i \right )}{1+exp \left ( \sum_{i=1}^m w_ix_i \right ) } \\ \\ y=0，\;\;\;\;\;\;\;P_w(y=0\mid x) &= \frac{1}{1+exp \left ( \sum_{i=1}^m w_ix_i \right ) } \end{aligned}$