CART分类树算法详解：基尼系数与决策树构建

PDF文件

下载需积分: 0 | 811KB | 更新于2024-08-05 | 155 浏览量 | 举报收藏

立即下载

"决策树算法原理(CART分类树) - 做梦当财神 - 博客园1" 本文主要介绍了决策树算法中的CART(Classification And Regression Tree)分类树的原理，它作为C4.5算法的改进版本，不仅能够处理分类任务，还能处理回归任务。CART算法的核心在于使用基尼系数来衡量数据集的不纯度，以此来选择最优的分割特征。 1. CART分类树的特征选择 CART算法在选择最优特征时，摒弃了ID3中的信息增益和C4.5的信息增益比，转而采用基尼系数。基尼系数是度量数据集纯度的一种指标，数值越小表示数据集越纯。对于二分类问题，基尼系数的计算公式为1 - p^2 - (1-p)^2，其中p是某一类别的样本比例。对于多分类问题，基尼系数计算更为复杂，但其核心思想保持一致，即通过概率分布的不纯度来衡量。 2. 基尼指数的计算对于一个包含K类别的数据集D，样本总数为|D|，第k类别的样本数量为|Ck|，其基尼系数Gini(D)可以表示为各类别概率平方和的总和减去1，即Gini(D) = 1 - ∑(pk^2)，其中pk = |Ck| / |D|。而在特征A的条件下，数据集被划分成了两部分D1和D2，其条件基尼系数Gini(D,A)由两部分组成，即Gini(D,A) = |D1| / |D| * Gini(D1) + |D2| / |D| * Gini(D2)。选择使得Gini(D,A)最小的特征A作为分割点。 3. 基尼系数与熵的比较虽然熵是信息论中衡量数据纯度的标准，但其计算涉及到对数运算，相比基尼系数的线性运算更为复杂。尤其是在二分类问题中，基尼系数和熵的一半相当接近，两者之间的误差在大部分情况下可以忽略。因此，基尼系数被认为是对熵的一种有效近似，特别是在计算效率上具有优势。 4. CART回归树除了分类任务，CART还可以用于回归任务。在回归树的构建过程中，CART不再寻找最优的分类特征，而是寻找能最大化样本输出值差异的特征。具体来说，它会选取一个分割点，使得子集上的输出变量方差最小。这样，每个内部节点对应于一个特征，而每个叶节点对应于一个预测的输出值。 5. 决策树的剪枝为了防止过拟合，CART算法通常会进行剪枝操作。剪枝过程包括预剪枝和后剪枝，预剪枝是在树生长之前设定一个停止规则，如最小叶子节点样本数，避免树过于复杂。后剪枝则是先构建完全的决策树，然后从底部开始逐步删除子树，如果子树的损失函数增益不大，则删除该子树，直到整个树无法再修剪为止。总结来说，CART分类树算法通过基尼系数选择最优特征，简化了决策树的构建过程，提高了计算效率，并且能够处理分类和回归任务。同时，剪枝策略有助于提高模型的泛化能力，防止过拟合。

博客园 首页 新随笔 联系 管理 订阅 随笔- 164  文章- 0  评论- 8 
决策树算法原理(CART分类树)
决策树算法原理(ID3，C4.5)
CART回归树 
决策树的剪枝
 
   
    在决策树算法原理(ID3，C4.5)中，提到C4.5的不足，比如模型是用较为复杂的熵来度量，使用了相对较为复
杂的多叉树，只能处理分类不能处理回归。对这些问题，CART(Classification And Regression Tree)做了改
进，可以处理分类，也可以处理回归。
 
1. CART分类树算法的最优特征选择方法
    ID3中使用了信息增益选择特征，增益大优先选择。C4.5中，采用信息增益比选择特征，减少因特征值多导致
信息增益大的问题。CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数
越小，不纯度越低，特征越好。这和信息增益（比）相反。
    假设K个类别，第k个类别的概率为p
k
，概率分布的基尼系数表达式：
    如果是二分类问题，第一个样本输出概率为p，概率分布的基尼系数表达式为：
    对于样本D，个数为|D|，假设K个类别，第k个类别的数量为|C
k
|，则样本D的基尼系数表达式：
    对于样本D，个数为|D|，根据特征A的某个值a，把D分成|D1|和|D2|，则在特征A的条件下，样本D的基尼系
数表达式为：
    比较基尼系数和熵模型的表达式，二次运算比对数简单很多。尤其是二分类问题，更加简单。
   和熵模型的度量方式比，基尼系数对应的误差有多大呢？对于二类分类，基尼系数和熵之半的曲线如下：
    基尼系数和熵之半的曲线非常接近，仅在45度角附近误差稍大。因此，基尼系数可以做为熵模型的一个近似替
代。
昵称： 做梦当财神 
园龄： 2年5个月 
粉丝： 28 
关注： 26
+加关注
< 2020年3月 >
日 一 二 三 四 五 六
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 1 2 3 4
5 6 7 8 9 10 11
搜
索
 
找找看
 
谷歌搜索
常
用
链
接
我的随笔
我的评论
我的参与
最新评论
我的标签
随
笔
分
类
jupyter notebook(2)
Linux(2)
MongoDB(29)
MySQL(1)
Numpy(9)
Oracle(12)
Pandas(18)
Python(22)
Python数据分析与挖掘(22)
机器学习(41)
爬虫(2)
随
笔
档案
2019年8月(3)
2019年7月(13)
2019年6月(2)
2019年5月(6)
2019年4月(7)
2019年3月(11)
2019年2月(1)
2019年1月(8)
2018年12月(1)
2018年9月(6)
2018年7月(4)
2018年6月(5)
2018年5月(4)
2018年4月(20)
做
梦
当
财
神