1 信息熵

熵的概念首先在热力学中引入,用于度量一个热力学系统的无序程度。

1948年,C.E. Shannon 在《A Mathematical Theory of Communication》第一次提出了信息熵。

  • 信息熵(Entropy)是信息的不确定性(Uncertainty)的度量,不确定性越大,信息熵越大。
  • 信息用来消除事件的不确定性,即消除熵=获取信息。消除熵可以通过调整事件概率、排除干扰或直接确定来消除。

一条信息消除的事件的不确定性越大(熵减越大),它蕴含的信息量越大。

因此,信息的量度应该依赖于事件的概率分布p(x)p(x)p(x)

(1)定义

H=−∑xp(x)log⁡p(x)H= -\sum\limits_{x} p(x)\log p(x)H=xp(x)logp(x)其中,p(x)p(x)p(x)为随机变量XXX的概率密度函数。使用以2为底的对数函数单位为bit。

对于离散型随机变量:
H=−∑i=1nP(xi)log⁡P(xi)H= -\sum\limits_{i=1}^{n} P(x_{i})\log P(x_{i})H=i=1nP(xi)logP(xi)0≤H(X)≤log⁡2N0 \leq H(X) \leq \log_2N0H(X)log2NNNN是系统SSS中的事件总数,当且仅当XXX均匀分布(p1=p2=...=pNp_1=p_2=...=p_Np1=p2=...=pN),系统的熵达到最大值log⁡2N\log_2Nlog2N(不确定性最大)。

如对于两点分布,H=−plog⁡p−(1−p)log⁡(1−p)H=-p\log p - (1-p)\log(1-p)H=plogp(1p)log(1p),当p=0.5p=0.5p=0.5时,HHH取得最大值1bit。

(2)举例
  • e.g.1
    • 随机抛掷1枚硬币1次,有2种可能结果:H=−∑i=1212log⁡212=1bitH= -\sum\limits_{i=1}^{2} \frac{1}{2} \log_2 \frac{1}{2} = 1bitH=i=1221log221=1bit
    • 抛掷3次,有8中可能结果:H=−∑i=1818log⁡218=3bitH= -\sum\limits_{i=1}^{8} \frac{1}{8} \log_2 \frac{1}{8} = 3bitH=i=1881log281=3bit
  • e.g.2 A/B/C/D 四个选项:
    • 无法确定是哪个选项为正确选项,此时的熵:H=−∑i=1414log⁡214=2bitH= -\sum\limits_{i=1}^{4} \frac{1}{4} \log_2 \frac{1}{4} = 2bitH=i=1441log241=2bit
    • 知道A不是正确选项后的HA=−∑i=1313log⁡213=1.585bitH_A= -\sum\limits_{i=1}^{3} \frac{1}{3} \log_2 \frac{1}{3} = 1.585 bitHA=i=1331log231=1.585bit
    • A不是正确选项提供的信息量H−HA=0.415bitH-H_A = 0.415 bitHHA=0.415bit
2 联合熵(Joint Entropy)

联合熵表示X,YX,YX,Y同时发生的不确定性,定义如下:
H(X,Y)=−∑x,yp(x,y)log⁡p(x,y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)H(X,Y) = -\sum_{x,y} p(x,y)\log p(x,y) \\ = H(X)+H(Y \mid X) \\ = H(Y)+H(X \mid Y) H(X,Y)=x,yp(x,y)logp(x,y)=H(X)+H(YX)=H(Y)+H(XY)

H(X,Y)≤H(X)+H(Y)H(X,Y) \leq H(X)+H(Y)H(X,Y)H(X)+H(Y),当且仅当X,YX,YX,Y相互独立时等号成立。

推广:H(X1,X2,...,Xn)≤∑i=1nH(Xi)H(X_1,X_2,...,X_n) \leq \sum_{i=1}^{n}H(X_i)H(X1,X2,...,Xn)i=1nH(Xi),当且仅当随机变量XiX_iXi相互独立时等号成立。

3 条件熵(Conditional Entropy)

条件熵表示一个随机变量在给定另外一个随机变量的条件下的熵,定义如下:

H(X∣Y)=−∑x,yp(x,y)log⁡p(x∣y)=H(X,Y)−H(Y) H(X \mid Y) = -\sum_{x,y} p(x,y)\log p(x \mid y) \\ = H(X,Y) - H(Y) H(XY)=x,yp(x,y)logp(xy)=H(X,Y)H(Y)
同理,
H(Y∣X)=−∑x,yp(x,y)log⁡p(y∣x)=H(X,Y)−H(X) H(Y \mid X) = -\sum_{x,y} p(x,y)\log p(y \mid x) \\ = H(X,Y) - H(X) H(YX)=x,yp(x,y)logp(yx)=H(X,Y)H(X)
H(X∣Y)≤H(X),H(Y∣X)≤H(Y)H(X \mid Y) \leq H(X),H(Y \mid X) \leq H(Y)H(XY)H(X),H(YX)H(Y),当且仅当X,YX,YX,Y相互独立时等号成立。

两个条件的条件熵定义如下:H(X∣Y,Z)=−∑x,y,zp(x,y,z)log⁡p(x∣y,z)H(X \mid Y,Z) = -\sum\limits_{x,y,z} {p(x,y,z)\log {p(x \mid y,z)}}H(XY,Z)=x,y,zp(x,y,z)logp(xy,z)

4 互信息(Mutual Information)

互信息表示由另一随机变量导致的原随机变量不确定度的缩减量,定义如下:
I(X;Y)=∑x,yp(x,y)logp(x,y)p(x)p(y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y) I(X;Y) = \sum_{x,y} p(x,y) log \frac {p(x,y)}{p(x)p(y)} \\ = H(X) - H(X|Y) \\ = H(Y) - H(Y|X) \\ =H(X) + H(Y) - H(X,Y) I(X;Y)=x,yp(x,y)logp(x)p(y)p(x,y)=H(X)H(XY)=H(Y)H(YX)=H(X)+H(Y)H(X,Y)

互信息关于XXXYYY对称,为非负值。可度量两个随机变量之间的独立程度,当且仅当XXXYYY相互独立时等于零。在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

隐私无忧

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值