跟踪链接|DT介绍，含例子

原创于 2022-08-10 23:43:41 发布 · 409 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #决策树 #python #目标跟踪 #分类

算法讲解专栏收录该内容

4 篇文章

订阅专栏

决策树

1. 概述

决策树就是一棵树，一个有终止模块的流程图，终点就是分类的结果。
一般来说决策树学习由三个步骤组成：特征选择、决策树构建、决策树修剪。

1.1 优点

计算复杂度不高
输出结果易于理解
对中间值的缺失不敏感
可以处理不相关特征数据

1.2 缺点

可能产生过度匹配的问题

1.3 数据适用范围

数值型与标称型数据

2. 经验熵与信息增益

决策树学习的关键在于如何选择最优的划分属性，所谓的最优划分属性，对于二元分类而言，就是尽量使划分的样本属于同一类别，即“纯度”最高的属性。那么如何来度量特征（features）的纯度，这时候就要用到“经验熵（information entropy）”。

2.1 经验熵

先来看看信息熵的定义：假如当前样本集 $D$ 中第 $k$ 类样本所占的比例为 $p_i(k=1,2,3,···,|I|)$ 为类别的总数（对于二元分类来说, $i = 2$ ）。则样本集的信息熵为：
$p_k=\frac{|C_k|}{D}$

$H(D)=-\sum_{k=1}^Kp_klog_2p_k$

$H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$
$H (D)$ 的值越小，则D的纯度越高。
反应了信息增益的一个缺点：该属性能取得值越多，信息增益，越偏向这个

2.2 信息增益

信息增益就是划分数据集前后，信息发生的变化称为信息增益。

输入：训练数据集 $D$ 和特征 $A$ ；
输出：特征 $A$ 对训练数据 $D$ 的信息增益 $g (D, A)$

信息增益表示了得知特征X的信息而使得类Y的信息的不确定性性减少的程度。

2.2.1 经验条件熵

计算特征 $A$ 对数据集 $D$ 的经验条件熵 $H (D ∣ A)$
$H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)$

$=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}$

$D_{ik}$ 的意思是在某一特征下的特征样本中满足训练目标的个数
$D_i$ 指的是该特征的样本容量

2.2.2 信息增益计算与信息增益比

信息增益=经验熵-经验条件熵
$g (D, A) = H (D) - H (D ∣ A)$

一般而言，信息增益越大，则表示使用特征对数据集划分所获得的“纯度提升”越大。所以信息增益可以用于决策树划分属性的选择，其实就是选择信息增益最大的属性，ID3算法就是采用的信息增益来划分属性。

信息增益比

信息增益比 $g_R(D,A)$ 为信息增益 $g (D, A)$ 与训练数据集 $D$ 关于特征 $A$ 的值熵 $H_A(D)$ 值之比：
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$
其中：
$H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}$
$n$ 是特征 $A$ 取值的个数。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。