在机器学习中,决策树是一种直观易懂的分类模型,而 Gini 系数是其中常用的划分标准之一。本文将通过手动计算与经典案例,带你从 0 到 1 理解 Gini 系数的原理、计算公式、实际应用及注意事项。
首先,我们先来来了解一下什么是Gini 系数,它有怎样的作用、怎么帮助我们建立决策树,然后通过一个例子,将所学的公式用于实际的问题中去巩固概念。
一、Gini 系数定义
在决策树算法中,Gini 基尼系数用于衡量数据集的纯度,其公式如下:

-
D:样本集
-
K:分类的总数
-
∑是求和符号
-
pk:属于第k 类的样本占比
Gini 值范围为 (0,1):
-
越接近 0,表示越纯净(全部属于一个类别)
-
越接近 1,表示类别分布越混乱
二、Gini Index(属性划分评估)
对于某个属性 A 将样本集 D 分成多个子集 D1,D2,...,Dn其 Gini Index 的计算公式为为:

- 将样本集D分成多个子集,比如你问了10个人,是否吃饭,对于他们的回答,你将10个人分为了7个 “ 是” 与3个 “ 否 ” 的子集。
我们用这个加权平均的方式,来评估划分后子集的整体纯度。哪个属性的 Gini Index 最小,就优先选择它作为根节点或者进行后续划分。
三、案例:贷款审批系统中构建决策树
我们用一个简化的贷款审批数据集,共 8 个样本,目标是预测“是否批准贷款”。目标是建立一棵决策树,找到最优的属性作为“根节点”来划分。
“一个用户的贷款申请应该批准(Yes)还是拒绝(No)?

最低0.47元/天 解锁文章
1617

被折叠的 条评论
为什么被折叠?



