机器学习-决策树算法-ID3信息增益分类器-基于信息熵与条件熵计算的特征选择系统-用于分类问题的高效决策树构建与预测-支持离散特征处理与递归树生成-包含信息增益阈值控制与剪枝策略-.zip资源-CSDN下载

共17个文件

py：9个

txt：3个

csv：2个

84 浏览量 2025-05-06 22:48:49 上传评论收藏 75KB ZIP 举报

在当今数据科学的领域中，机器学习算法扮演着至关重要的角色，它们被广泛应用于数据分类、预测建模、聚类分析等多个方面。决策树作为一种经典的机器学习算法，因其直观性和易于解释性的特点，在各类分类问题中得到了广泛应用。ID3算法，作为决策树算法的一个经典代表，通过利用信息增益（Information Gain）作为特征选择的标准，构建出能够高效进行数据分类的树型结构模型。该算法由Ross Quinlan于1986年提出，主要用于处理分类问题，并且能够处理离散特征，适用于许多不同场景下的数据预测和决策分析任务。信息增益是ID3算法的核心概念，它基于信息熵（Entropy）和条件熵（Conditional Entropy）来计算。信息熵是度量数据集纯度的一种方式，它表示在给定数据集中，随机选择一个样本，其标签的不确定性。而条件熵则表示在已知某个特征的情况下，数据集纯度的变化程度。ID3算法通过计算每个特征的信息增益来选择最佳的分割特征，从而在每一步中增加树的预测准确度。决策树的构建过程是一个递归过程，通常从根节点开始，选择信息增益最大的特征进行分裂，创建分支节点，并对每个分支节点递归执行相同的过程，直到满足停止条件。例如，当所有样本都属于同一类，或者没有更多特征可以使用时，递归就会停止。为了防止过拟合，ID3算法支持剪枝策略，这包括预先剪枝（Pre-Pruning）和后剪枝（Post-Pruning）。预先剪枝在树构建过程中直接停止分裂，而后剪枝则是先生成完整的树，然后删除那些对树的准确度提升不大的分支。剪枝有助于提高模型的泛化能力，避免过度拟合训练数据。除了处理离散特征，ID3算法在实际应用中也必须处理连续特征，这通常需要将连续特征离散化，即将其分割成有限的区间或集合。此外，由于ID3只使用信息增益作为分割标准，它可能会偏向于选择具有更多值的特征。为了解决这个问题，后续出现了C4.5和C5.0等改进算法，它们采用增益率（Gain Ratio）和信息增益的结合来选择特征，以克服ID3算法的这一局限。在提供的压缩包文件中，我们可以推断包含了关于ID3决策树算法的详细资源，可能包括理论讲解、算法实现、应用案例分析以及代码示例。文件“ML-8-DecisionMaking-tree-main”可能是一个项目主文件夹，其中包含构建和应用决策树模型的全部代码和数据。而“附赠资源.docx”和“说明文件.txt”则可能包含对该算法应用场景的描述、使用说明以及可能的配套教学资源或辅助材料，为用户提供了一个全面学习ID3算法的途径，帮助用户更好地理解和应用这一算法于实际问题中。此外，该压缩包文件还可能包含了剪枝策略的具体实现和示例，使用户能够学习如何通过剪枝提高模型的泛化能力，并掌握如何避免过拟合的技术。ID3算法的应用非常广泛，从金融市场分析到医疗诊断，从自然语言处理到推荐系统，都可看到其身影。因此，了解和掌握ID3算法的原理和应用对于数据科学工作者和研究人员而言具有重要价值。

资源推荐

资源详情

资源评论

收起资源包目录

机器学习_决策树算法_ID3信息增益分类器_基于信息熵与条件熵计算的特征选择系统_用于分类问题的高效决策树构建与预测_支持离散特征处理与递归树生成_包含信息增益阈值控制与剪枝策略_.zip （17个子文件）

ML-8-DecisionMaking-tree-main

ID3.py 7KB

CHAID.py 8KB

LICENSE 11KB

rGBDT.py 4KB

RandomForest.py 4KB

dataset

car_1000.txt 30KB

val.csv 22KB

CreateVal.py 1KB

description.txt 4KB

car_evaluation.csv 52KB

C4.5.py 8KB

CART.py 7KB

LightGBM.py 5KB

README.md 51KB

XGBoost.py 5KB

说明文件.txt 511B

附赠资源.docx 38KB

# README [TOC] ## ID3决策树 ID3 使用的分类标准是信息增益，它表示得知特征 A 的信息而使得样本集合不确定性减少的程度。数据集的信息熵： ![image-20240408235918617](https://cdn.jsdelivr.net/gh/PerformapalSolv/githubChartBed@main/img/image-20240408235918617.png) 其中 $C_{k}$ 表示集合 D 中属于第 k 类样本的样本子集。针对某个特征 A，对于数据集 D 的条件熵 $H(D|A)$ 为：![image-20240408235846700](https://cdn.jsdelivr.net/gh/PerformapalSolv/githubChartBed@main/img/image-20240408235846700.png) 其中 $D_{i}$ 表示 D 中特征 A 取第 i 个值的样本子集， $D_{ik}$表示$D_{i}$中属于第 k 类的样本子集。信息增益 = 信息熵 - 条件熵： ![image-20240408235832461](https://cdn.jsdelivr.net/gh/PerformapalSolv/githubChartBed@main/img/image-20240408235832461.png) 信息增益越大表示使用特征 A 来划分所获得的“纯度提升越大”。 **手写代码解释:** 这里实现了ID3算法的基本思想,通过递归构建决策树,并使用信息增益作为划分标准。在预测阶段,对每个样本遍历决策树,根据特征值选择相应的分支,直到达到叶子节点,返回预测的类别。 ```python class ID3DecisionTree: def __init__(self, epsilon=0.1): self.epsilon = epsilon # 信息增益阈值,如果小于该值,则停止划分 self.tree = None # 决策树 self.feature_names = None # 特征名称 def fit(self, X, y): self.feature_names = X.columns # 存储特征名称 X = X.values # 将 DataFrame 转换为 NumPy 数组 y = y.values # 将 Series 转换为 NumPy 数组 self.tree = self._build_tree(X, y) # 构建决策树 def _build_tree(self, X, y): if len(np.unique(y)) == 1: # 如果所有样本属于同一类别,返回该类别 return y[0] if X.shape[1] == 0: # 如果没有更多特征可用于划分,返回出现次数最多的类别 return Counter(y).most_common(1)[0][0] best_feature, best_threshold = self._choose_best_feature(X, y) # 选择最佳划分特征和阈值 if best_feature is None: # 如果无法找到合适的划分特征,返回出现次数最多的类别 return Counter(y).most_common(1)[0][0] feature_name = self.feature_names[best_feature] # 获取最佳划分特征的名称 tree = {feature_name: {}} # 创建字典表示当前节点 left_mask = X[:, best_feature] < best_threshold # 左子树的样本掩码 right_mask = X[:, best_feature] >= best_threshold # 右子树的样本掩码 X_left, y_left = X[left_mask], y[left_mask] # 左子树的样本和标签 X_right, y_right = X[right_mask], y[right_mask] # 右子树的样本和标签 tree[feature_name]['< ' + str(best_threshold)] = self._build_tree(X_left, y_left) # 递归构建左子树 tree[feature_name]['>= ' + str(best_threshold)] = self._build_tree(X_right, y_right) # 递归构建右子树 return tree def _choose_best_feature(self, X, y): best_gain = -1 # 最佳信息增益 best_feature = None # 最佳划分特征 best_threshold = None # 最佳划分阈值 for feature in range(X.shape[1]): # 遍历所有特征 thresholds = np.unique(X[:, feature]) # 获取当前特征的所有取值作为候选阈值 for threshold in thresholds: # 遍历所有候选阈值 gain = self._information_gain(X, y, feature, threshold) # 计算当前特征和阈值的信息增益 if gain > best_gain: # 如果当前信息增益更大,更新最佳划分特征、阈值和信息增益 best_gain = gain best_feature = feature best_threshold = threshold if best_gain < self.epsilon: # 如果最佳信息增益小于阈值,则停止划分 return None, None return best_feature, best_threshold def _information_gain(self, X, y, feature, threshold): parent_entropy = self._entropy(y) # 计算父节点的熵 left_mask = X[:, feature] < threshold # 左子树的样本掩码 right_mask = X[:, feature] >= threshold # 右子树的样本掩码 n_left = left_mask.sum() # 左子树的样本数 n_right = right_mask.sum() # 右子树的样本数 if n_left == 0 or n_right == 0: # 如果左子树或右子树没有样本,信息增益为0 return 0 child_entropy = (n_left / len(y)) * self._entropy(y[left_mask]) + (n_right / len(y)) * self._entropy(y[right_mask]) # 计算子节点的熵 return parent_entropy - child_entropy # 返回信息增益 def _entropy(self, y): _, counts = np.unique(y, return_counts=True) # 获取每个类别的样本数 probabilities = counts / len(y) # 计算每个类别的概率 return -(probabilities * np.log2(probabilities)).sum() # 计算熵 def predict(self, X): X = X.values # 将 DataFrame 转换为 NumPy 数组 return [self._traverse_tree(x, self.tree) for x in X] # 对每个样本遍历决策树进行预测 def _traverse_tree(self, x, node): if not isinstance(node, dict): # 如果当前节点是叶子节点,直接返回类别 return node feature_name = list(node.keys())[0] # 获取当前节点的特征名称 feature = self.feature_names.get_loc(feature_name) # 获取当前特征的索引 thresholds = list(node[feature_name].keys()) # 获取当前节点的所有阈值 threshold_left = [t for t in thresholds if t.startswith('<')][0] # 获取左子树的阈值 threshold_right = [t for t in thresholds if t.startswith('>=')][0] # 获取右子树的阈值 if x[feature] < float(threshold_left.split(' ')[1]): # 如果样本的特征值小于左子树阈值,递归遍历左子树 return self._traverse_tree(x, node[feature_name][threshold_left]) else: # 否则,递归遍历右子树 return self._traverse_tree(x, node[feature_name][threshold_right]) ``` > 1. 初始化决策树对象,设置信息增益阈值、决策树和特征名称。 > 2. 在 `fit` 方法中,将数据集转换为 NumPy 数组,并调用 `_build_tree` 方法构建决策树。 > 3. 在 `_build_tree` 方法中,递归构建决策树。如果所有样本属于同一类别或没有更多特征可用于划分,则返回相应的类别。否则,调用 `_choose_best_feature` 方法选择最佳划分特征和阈值,并根据阈值将数据集划分为左右子树,递归构建子树。 > 4. 在 `_choose_best_feature` 方法中,遍历所有特征和候选阈值,计算每个特征和阈值的信息增益,选择信息增益最大的特征和阈值作为最佳划分。如果最佳信息增益小于阈值,则停止划分。 > 5. 在 `_information_gain` 方法中,计算特定特征和阈值的信息增益。首先计算父节点的熵,然后根据阈值将数据集划分为左右子树,计算子节点的熵,最后返回信息增益(父节点熵减去子节点熵)。 > 6. 在 `_entropy` 方法中,计算给定数据集的熵。首先获取每个类别的样本数,计算每个类别的概率,然后计算熵。 > 7. 在 `predict` 方法中,对每个样本遍历决策树进行预测。在 `_traverse_tree` 方法中,根据当前节点的特征和阈值,递归遍历左子树或右子树,直到达到叶子节点,返回相应的类别。 **缺点** - <font color='dd0000'>**ID3 没有剪枝策略，容易过拟合**</font>； - 信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1； - 只能用于处理离散分布的特征； - 没有考虑缺失值。 **结果:** �

评论收藏

内容反馈