【西瓜书】第四章 决策树

一、决策树的算法原理

决策树就是不断根据某属性进行划分的过程(每次决策时都是在上次决策结果的基础之上进行),即“if……elif……else……”的决策过程,最终得出一套有效的判断逻辑,便是学到的模型。
在这里插入图片描述

决策树的基本思想是根据某种原则(即图 4.2 第 8 行)每次选择一个属性作为划分依据,然后按属性的取值将数据集中的样本进行划分

二、划分选择

由图4.2可知,决策树学习的关键是第8行,也就是如何选择最优划分属性。随着划分过程的不断进行,希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”(purity)越来越高。

本节介绍的三种划分选择方法,即信息增益、增益率、基尼指数分别对应著名的 ID3、C4.5 和 CART
三种决策树算法。

1. ID3 决策树——信息增益为划分准则

自信息: I ( X ) = − l o g b p ( x ) I(X) = -log_bp(x) I(X)=logbp(x)
b = 2 b=2 b=2时单位为bit,当 b = e b=e b=e时单位为nat
信息熵(自信息的期望): 度量随机变量X的不确定性,信息熵越大越不确定。
eg: p 1 = 1 , p 2 = 0 p1=1,p2=0 p1=1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值