机器学习(二)---决策树算法总结

原创

已于 2023-02-09 23:37:34 修改 · 4.4k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#决策树

于 2018-05-24 22:03:30 首次发布

本文介绍了决策树算法，包括其工作原理、优缺点、评价、主要算法如ID3、C4.5和CART，以及剪枝策略。讨论了连续值处理、缺失值处理和多变量决策树的概念，同时提到了决策树在C++和Python中的实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 综述

决策树就是通过一系列规则对数据进行分类的一种算法，可以分为分类树和回归树两类，分类树处理离散变量的，回归树是处理连续变量。

样本一般都有很多个特征，有的特征对分类起很大的作用，有的特征对分类作用很小，甚至没有作用。如决定是否对一个人提供贷款时，这个人的信用记录、收入等就是主要的判断依据，而性别、婚姻状况等等就是次要的判断依据。决策树构建的过程，就是根据特征的决定性程度，先使用决定性程度高的特征分类，再使用决定性程度低的特征分类，这样构建出一棵倒立的树，就是我们需要的决策树模型，可以用来对数据进行分类。决策树学习的过程可以分为三个步骤：

1）特征选择，即从众多特征中选择出一个作为当前节点的分类标准；

2）决策树生成，从上到下构建节点；

3）剪枝，为了预防和消除过拟合，需要对决策树剪枝。

2.评价

优点：

1：理解和解释起来简单，且决策树模型可以想象，对中间值的缺失不敏感，可以处理不相关特征数据；
2：需要准备的数据量不大，而其他的技术往往需要很大的数据集，需要创建虚拟变量，去除不完整的数据，但是该算法对于丢失的数据不能进行准确的预测
3：决策树算法的时间复杂度(即预测数据)是用于训练决策树的数据点的对数
4：能够处理数字和数据的类别（需要做相应的转变），而其他算法分析的数据集往往是只有一种类型的变量
5：能够处理多输出的问题
6：使用白盒模型，如果给定的情况是在一个模型中观察到的，该条件的解释很容易解释的布尔逻辑，相比之下，在一个黑盒子模型（例如人工神经网络），结果可能更难以解释
7：可能使用统计检验来验证模型，这是为了验证模型的可靠性
8：从数据结果来看，它执行的效果很好，虽然它的假设有点违反真实模型

缺点：

1：决策树算法学习者可以创建复杂的树，但是没有推广依据，这就是所谓的过拟合，为了避免这种问题，出现了剪枝的概念，即设置一个叶子结点所需要的最小数目或者设置树的最大深度
2：决策树的结果可能是不稳定的，因为在数据中一个很小的变化可能导致生成一个完全不同的树，这个问题可以通过使用集成决策树来解决
3：众所周知，学习最佳决策树的问题是已知的NP完全下最优的几个方面，甚至简单的概念——因此，实际决策树学习算法是基于启发式算法，如贪婪算法，寻求在每个节点上的局部最优决策。这样的算法不能保证返回全局最优决策树。这可以减轻训练多棵树的合奏学习者，在那里的功能和样本随机抽样更换。
4：这里有一些概念是很难的理解的，因为决策树本身并不难很轻易的表达它们，比如说异或校验或复用的问题。

5：决策树学习者很可能在