理解信息增益

信息量

对等概率事件结果的可能性数量取以2为底的对数刚好是传递时间结果所需要的信息量(结合二进制)
等可能事件数
1Pk\frac{1}{P_k}Pk1可用于刻画事件发生的第K种可能所对应的等可能事件数量。
某事件结果AA的发生概率是0.2,那么实际上可以将其理解为,在5个等概率事件中A所发生的概率。
等可能事件越多所传输的信息量就越大

信息熵

"信息熵"是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,y)则信息熵的定义为
Ent(D)=∑k=1∣y∣pklog21pk=−∑k=1∣y∣pklog2pkEnt(D)=\sum_{k=1}^{\left | y \right |} p_klog_2\frac{1}{p_k}=-\sum_{k=1}^{\left | y \right |} p_klog_2p_kEnt(D)=k=1ypklog2pk1=k=1ypklog2pk
其中,1pk\frac{1}{p_k}pk1表示每个概率所对应的等可能事件数
信息熵还可以理解为信息量的期望

信息增益

信息增益=信息熵-条件熵

条件熵

H(Y∣X)=∑x∈Xp(x)H(Y∣X=x)H(Y \mid X)=\sum_{x \in X} p(x) H(Y \mid X=x)H(YX)=xXp(x)H(YX=x)
也可以表示为
Ent⁡(D∣Dv)=∑v=1V∣Dv∣∣D∣Ent⁡(Dv)\operatorname{Ent}\left(D \mid D^{v}\right)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)Ent(DDv)=v=1VDDvEnt(Dv)
假定离散属性 a(西瓜的色泽)有V 个可能的取值{} (比如 {青绿,乌黑,浅白,墨绿 … })等等吧 ,如果使用a 来对样本集D(西瓜) 进行划分 ,则会产生 V 个分支节点,其中第v 个分支节点包含了D 中所有在属性a上的取值为 的样本 ,记作

信息增益

根据信息熵的计算公式, 我们可以计算出的信息熵 ,再考虑到不同的分支节点所包含的样本数不同,给分支节点赋予权重 ,也就是样本数越多的分支节点影响越大,于是可以计算出用 a 属性对样本D进行划分所获得的"信息增益"(information gain)
Gain(D,a)=Ent(D)−Ent(D∣Dv)Gain(D,a)=Ent(D)-Ent(D\mid D^v)Gain(D,a)=Ent(D)Ent(DDv)
代入
Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{\mid D^v\mid}{\mid D \mid}Ent(D^v)Gain(D,a)=Ent(D)v=1VDDvEnt(Dv)
一般来说, 信息增益越大,则意味着使用属性a进行划分所获得的"纯度提升"越大 .因此可以用信息增益来进行决策树的划分属性选择.

增益率

事实上用信息增益准则对可取值数目较多的属性有所偏好,为了减少这种偏好可能带来的不利影响,我们会使用 “增益率” ,来选择最优划分属性 , 增益率定义为 :
Gain ratio(D,a)=Gain(D,a)IV(a)IV(a)=−∑v=1V∣Dv∣∣D∣log2∣Dv∣∣D∣Gain \ ratio(D,a)=\frac{Gain(D,a)}{IV(a)} \\ IV(a)=-\sum_{v=1}^{V}\frac{\mid D^v\mid}{\mid D\mid}log_2\frac{\mid D^v\mid}{\mid D\mid }Gain ratio(D,a)=IV(a)Gain(D,a)IV(a)=v=1VDDvlog2DDv
称为属性 a 的"固有值" ,属性a 取值数目越多(V越大) ,则 IV(a) 的值通常越大

使用注意:
增益率准则对可取值数目较少的属性有所偏好,信息增益对可取值数目多的属性有所偏好
一般来说,划分属性时找出信息增益高于平均水平的属性,再从中选择增益率最高的

【如何理解信息熵】 https://www.bilibili.com/video/BV1oX4y1w7aG/?share_source=copy_web&vd_source=e8cb070c1a0913c51d12105ca3b9d153
参考书:西瓜书周志华

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值