目录
一、决策树的算法原理
决策树就是不断根据某属性进行划分的过程(每次决策时都是在上次决策结果的基础之上进行),即“if……elif……else……”的决策过程,最终得出一套有效的判断逻辑,便是学到的模型。
决策树的基本思想是根据某种原则(即图 4.2 第 8 行)每次选择一个属性作为划分依据,然后按属性的取值将数据集中的样本进行划分
二、划分选择
由图4.2可知,决策树学习的关键是第8行,也就是如何选择最优划分属性。随着划分过程的不断进行,希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”(purity)越来越高。
本节介绍的三种划分选择方法,即信息增益、增益率、基尼指数分别对应著名的 ID3、C4.5 和 CART
三种决策树算法。
1. ID3 决策树——信息增益为划分准则
自信息: I ( X ) = − l o g b p ( x ) I(X) = -log_bp(x) I(X)=−logbp(x)
当 b = 2 b=2 b=2时单位为bit,当 b = e b=e b=e时单位为nat
信息熵(自信息的期望): 度量随机变量X的不确定性,信息熵越大越不确定。
eg: p 1 = 1 , p 2 = 0 p1=1,p2=0 p1=1