1 信息熵
熵的概念首先在热力学中引入,用于度量一个热力学系统的无序程度。
1948年,C.E. Shannon 在《A Mathematical Theory of Communication》第一次提出了信息熵。
- 信息熵(Entropy)是信息的不确定性(Uncertainty)的度量,不确定性越大,信息熵越大。
- 信息用来消除事件的不确定性,即消除熵=获取信息。消除熵可以通过调整事件概率、排除干扰或直接确定来消除。
一条信息消除的事件的不确定性越大(熵减越大),它蕴含的信息量越大。
因此,信息的量度应该依赖于事件的概率分布p(x)p(x)p(x)。
(1)定义
H=−∑xp(x)logp(x)H= -\sum\limits_{x} p(x)\log p(x)H=−x∑p(x)logp(x)其中,p(x)p(x)p(x)为随机变量XXX的概率密度函数。使用以2为底的对数函数单位为bit。
对于离散型随机变量:
H=−∑i=1nP(xi)logP(xi)H= -\sum\limits_{i=1}^{n} P(x_{i})\log P(x_{i})H=−i=1∑nP(xi)logP(xi)0≤H(X)≤log2N0 \leq H(X) \leq \log_2N0≤H(X)≤log2N,NNN是系统SSS中的事件总数,当且仅当XXX均匀分布(p1=p2=...=pNp_1=p_2=...=p_Np1=p2=...=pN),系统的熵达到最大值log2N\log_2Nlog2N(不确定性最大)。
如对于两点分布,H=−plogp−(1−p)log(1−p)H=-p\log p - (1-p)\log(1-p)H=−plogp−(1−p)log(1−p),当p=0.5p=0.5p=0.5时,HHH取得最大值1bit。
(2)举例
- e.g.1
- 随机抛掷1枚硬币1次,有2种可能结果:H=−∑i=1212log212=1bitH= -\sum\limits_{i=1}^{2} \frac{1}{2} \log_2 \frac{1}{2} = 1bitH=−i=1∑221log221=1bit;
- 抛掷3次,有8中可能结果:H=−∑i=1818log218=3bitH= -\sum\limits_{i=1}^{8} \frac{1}{8} \log_2 \frac{1}{8} = 3bitH=−i=1∑881log281=3bit
- e.g.2 A/B/C/D 四个选项:
- 无法确定是哪个选项为正确选项,此时的熵:H=−∑i=1414log214=2bitH= -\sum\limits_{i=1}^{4} \frac{1}{4} \log_2 \frac{1}{4} = 2bitH=−i=1∑441log241=2bit
- 知道A不是正确选项后的熵:HA=−∑i=1313log213=1.585bitH_A= -\sum\limits_{i=1}^{3} \frac{1}{3} \log_2 \frac{1}{3} = 1.585 bitHA=−i=1∑331log231=1.585bit
- A不是正确选项提供的信息量:H−HA=0.415bitH-H_A = 0.415 bitH−HA=0.415bit
2 联合熵(Joint Entropy)
联合熵表示X,YX,YX,Y同时发生的不确定性,定义如下:
H(X,Y)=−∑x,yp(x,y)logp(x,y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)H(X,Y) = -\sum_{x,y} p(x,y)\log p(x,y) \\
= H(X)+H(Y \mid X) \\
= H(Y)+H(X \mid Y) H(X,Y)=−x,y∑p(x,y)logp(x,y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
H(X,Y)≤H(X)+H(Y)H(X,Y) \leq H(X)+H(Y)H(X,Y)≤H(X)+H(Y),当且仅当X,YX,YX,Y相互独立时等号成立。
推广:H(X1,X2,...,Xn)≤∑i=1nH(Xi)H(X_1,X_2,...,X_n) \leq \sum_{i=1}^{n}H(X_i)H(X1,X2,...,Xn)≤∑i=1nH(Xi),当且仅当随机变量XiX_iXi相互独立时等号成立。
3 条件熵(Conditional Entropy)
条件熵表示一个随机变量在给定另外一个随机变量的条件下的熵,定义如下:
H(X∣Y)=−∑x,yp(x,y)logp(x∣y)=H(X,Y)−H(Y)
H(X \mid Y) = -\sum_{x,y} p(x,y)\log p(x \mid y) \\
= H(X,Y) - H(Y)
H(X∣Y)=−x,y∑p(x,y)logp(x∣y)=H(X,Y)−H(Y)
同理,
H(Y∣X)=−∑x,yp(x,y)logp(y∣x)=H(X,Y)−H(X)
H(Y \mid X) = -\sum_{x,y} p(x,y)\log p(y \mid x) \\
= H(X,Y) - H(X) H(Y∣X)=−x,y∑p(x,y)logp(y∣x)=H(X,Y)−H(X)
H(X∣Y)≤H(X),H(Y∣X)≤H(Y)H(X \mid Y) \leq H(X),H(Y \mid X) \leq H(Y)H(X∣Y)≤H(X),H(Y∣X)≤H(Y),当且仅当X,YX,YX,Y相互独立时等号成立。
两个条件的条件熵定义如下:H(X∣Y,Z)=−∑x,y,zp(x,y,z)logp(x∣y,z)H(X \mid Y,Z) = -\sum\limits_{x,y,z} {p(x,y,z)\log {p(x \mid y,z)}}H(X∣Y,Z)=−x,y,z∑p(x,y,z)logp(x∣y,z)
4 互信息(Mutual Information)
互信息表示由另一随机变量导致的原随机变量不确定度的缩减量,定义如下:
I(X;Y)=∑x,yp(x,y)logp(x,y)p(x)p(y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y)
I(X;Y) = \sum_{x,y} p(x,y) log \frac {p(x,y)}{p(x)p(y)} \\
= H(X) - H(X|Y) \\
= H(Y) - H(Y|X) \\
=H(X) + H(Y) - H(X,Y)
I(X;Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y)
互信息关于XXX和YYY对称,为非负值。可度量两个随机变量之间的独立程度,当且仅当XXX和YYY相互独立时等于零。