李航统计学习第五章-决策树

本文深入探讨了决策树的学习过程,从信息论基础如熵、条件熵和互信息开始,详细介绍了特征选择的依据——信息增益、信息增益比和基尼指数。接着,阐述了ID3、C4.5和Cart三种决策树算法的异同,并讲解了决策树剪枝的重要性及算法原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、一些信息论概念

参考 https://blog.csdn.net/ranghanqiao5058/article/details/78458815

如果本来一件事情发生的概率是50%,那么如果我知道了这件事情,那么这个信息就是有价值的。

条件熵
互信息、条件熵、联合熵区别

举个例子,假设H(X)用一块糖来表示,Y代表一杯水,H(X|Y)也就是将这杯水倒在糖上,H(X)还剩多少,那么溶于水的那部分糖就是Y给H(X)带来的损失,即就是互信息。

2、特征选择
信息增益

相当于信息论中的互信息,知道一个信息不确定性减少的程度的大小,信息增益越大,代表这个信息越有价值。

  • 信息增益
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值