决策树(下)
CART算法,用于分类、回归
一、概述
整个决策树模型生成由:特征选择、决策树生成、剪枝,三步完成。
CART决策树是二叉树。
CART算法由以下两步组成:
(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;
(2)决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损 失函数最小作为剪枝的标准。
决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方误差最小化准则, 对分类树用基尼指数(Gini index)最小化准则,进行特征选择,生成二叉树。
(1)回归树:
生成:
对训练集中的每个数据作为切分点,以下面公式计算一次损失,找到损失最小的点作为切分点。如此循环直到满足要求。
对切分后的单元的值设置为单元内所有数据点的平均值。
(2)分类树:
遍历训练集数据中的所有输入数据的特征和取值,将其作为分隔条件分成两类D1和D2。计算对应特征取值下的条件基尼指数,取所有基尼指数最小的特征值作为分隔条件对数据集进行分类,如此循环直到满足条件。
p为特征取对应值得概率。将所有不满足条件的数据都算为另一个类概率为1-p