机器学习——决策树

最新推荐文章于 2025-08-15 23:13:00 发布

原创最新推荐文章于 2025-08-15 23:13:00 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #决策树 #人工智能

机器学习专栏收录该内容

8 篇文章

订阅专栏

文章详细介绍了决策树学习的过程，包括基本流程（遵循“分而治之”策略），划分选择（如信息增益、信息增益率和基尼指数的选择标准），以及剪枝处理（预剪枝与后剪枝的区别及对过拟合风险的影响）。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、基本流程

一颗决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果划分到子结点中；根结点包含样本全集。
从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树。
决策树构建遵循的基本流程是“分而治之”策略和递归思想。
显然，决策树的生成是一个递归过程，在决策树的
基本算法中，有3中情况会导致递归返回：（1）当前结点包含的样本全属于同一类别，无需划分。（2）当前属性集为空，或是所有样本在所有属性上取值相同，无法划分。（3）当前结点包含的样本集合为空，不能划分。
决策树学习基本算法 2—4行是递归返回的第1种情况。5—7行是递归返回的第2种情况，把当前结点标记为叶结点，并将其类别设定为该结点所含样本最多的类别，利用的是当前节点的后验分布。11—14行是递归返回的第3种情况，把当前结点标记为叶结点，但是将其类别设定为其父结点所含样本最多的类别，第3种情况是将父结点的样本分布作为当前结点的先验分布。

二、划分选择

决策树学习的关键是第8行，即如何选择最优划分属性。一般而言，希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高。

2.1 信息增益

“信息熵”是度量样本集合纯度最常用的一种指标，假设当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $pk(k=1,2,…,∣χ∣)p_k(k=1,2,…,|\chi|)$ ，则 $D$ 的信息熵定义为
$Ent(D)=-\sum_{k=1}^{|\chi|}p_k\log_2{p_k}$

Ent(D)的最小值为0，最大值为 $log⁡2∣χ∣\log_2{|\chi|}$
Ent(D)的值越小，则D的纯度越高

假定离散属性 $a$ 有 $V$ 个可能得取值 $,aV}\{a^1,a^2,\cdots,a^V\}$ ，若使用 $a$ 来对样本集 $D$ 进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$ 。可以计算出 $D^v$ 的信息熵，再考虑到不同的分支结点所包含的样本数不同，给分支结点赋予权重 $D^v|/|D|$ ，即样本数越多的分支结点影响越大，于是可以计算出用属性 $a$ 对样本集 $D$ 进行划分所获得的“信息增益”。
$Gain(D,a)=Ent(D)-\sum_{v=1}^V \frac {|D^v|} {|D|} Ent(D^v)$

信息增益=划分前的信息熵 — 权重*划分后的信息熵。一般而言，信息增益越大，则意味着使用属性 $a$ 来进行划分所获得的“纯度提升”越大。可用信息增益来进行决策树的划分属性选择。

2.2 信息增益率

假定将每一行数据的标号作为划分属性，则每个分支结点仅包含一个样本，这些分支结点的纯度已经达到最大。然而，这样的决策树显然不具有泛化能力，无法对新样本进行有效预测。
实际上，信息增益准则对可取值数据较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的C4.5决策树算法不直接使用信息增益，而是使用“增益率”来选择最优划分属性。增益率定义为：
$Gain_ratio(D,a)=Gain(D,a)IV(a) Gain\_ratio(D,a)=\frac {Gain(D,a)} {IV(a)}$
$其中,IV(a)=-\sum_{v=1}^V\frac {|D^V|} {D} \log_2 \frac {|D^V|} {D}$

$I V (a) 称为属性 a 的 “ 固有值 ” ，属性 a 的可能取值数目越多（即 V 越大），则 I V (a) 的值通常会变大。$
需要注意的是，增益率准则对可取值数目较少的属性有所偏好，因此，C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找到信息增益高于平均水平的属性，再从中选择增益率最高的。没有办法对信息增益和分支数目两者间做绝对正确的匹配。

2.3 基尼指数

CART决策树使用“基尼指数”来选择划分属性，数据集 $D$ 的纯度可以用基尼值来度量：
$Gini(D)=\sum_{k=1}^{|\chi|}\sum_{k'\neq k} p_kp_k'=1-\sum_{k=1}^{|\chi|}{p_k}^2$

从直观意义上看，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini(D)越小，则数据集D的纯度越高。

属性 $a$ 的基尼指数定义为
$Gini_index(D,a)=\sum_{v=1}^V \frac {|D^v|} {D} Gini(D^v)$
因此，在候选属性集合A中，选择那个使得划分后基尼指数最小的属性作为最优划分属性。

三、剪枝处理

剪枝是决策树学习算法中对付“过拟合”的主要手段。在决策树学习中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分支过多，这可能是因为因训练样本学得“太好了”，导致把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此，主动去掉一些分支来降低过拟合的风险。单使用决策树时，一般都需要使用剪枝。
决策树剪枝的基本策略有“预剪枝”和“后剪枝”。预剪枝是指在决策树生成过程中，对每个结点在划分前进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶节点；后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。