数据分类与预测算法全解析
立即解锁
发布时间: 2025-08-22 01:43:52 阅读量: 2 订阅数: 4 


数据分析入门:从理论到实践
# 数据分类与预测算法全解析
## 1. 朴素贝叶斯算法(NB)
### 1.1 分类原理
在分类任务中,会将具有最高概率值 $P(y_i|X)$ 的类别 $i$ 分配给对象 $X$。因此,朴素贝叶斯(NB)可用于任意数量类别的分类任务。
### 1.2 概率计算
为了使用贝叶斯定理,需要知道 $P(X|y_i)$ 的值,其中 $X$ 是一个包含 $p$ 个值的向量,每个值对应对象的一个预测属性。若考虑到某些预测属性的值依赖于其他属性的值,$P(X|y_i)$ 的计算需要进行多个中间计算,其估计取决于每个类别可用的训练示例数量。例如,若对象有 $p$ 个预测属性,$P(X|y_i)$ 定义如下:
- 复杂计算式:$P(X|y_i) = P(x_1, x_2, ..., x_p|y_i) = P(x_1|x_2, ..., x_p, y_i) × P(x_2|x_3, ..., x_p, y_i) × ... × P(x_p|y_i) × P(y_i)$
- 简化计算式:为简化计算,NB 假设预测属性相互独立,此时 $P(X|y_i) = P(x_1|y_i) × P(x_2|y_i) × ... × P(x_p|y_i)$
### 1.3 结果评估
NB 算法的主要结果是 $p$ 个条件概率,这些信息非常有意义,因为它使我们能够获得每个类别中每个预测属性的经验分布。
### 1.4 超参数设置
NB 没有超参数。
### 1.5 优缺点分析
| 优点 | 缺点 |
| --- | --- |
| 在预测属性独立的分类任务中具有良好的预测性能 | 不考虑预测属性之间的关系,这既是快速学习的原因,也是其局限性 |
| 对噪声数据和无关属性具有鲁棒性 | 可从特征选择中受益 |
| 训练简单,只需查看一次训练集即可诱导分类模型 | 难以处理预测属性中的连续定量值 |
| 对新对象的类别标签预测速度快 | |
| 诱导的模型易于解释 | |
| 无超参数 | |
## 2. 搜索式算法
### 2.1 决策树归纳算法(DTIAs)
#### 2.1.1 决策树概述
决策树归纳算法(DTIAs)常用于设计搜索式算法,它能诱导出具有树状决策结构的模型,其中每个内部节点与一个或多个预测属性相关联,每个叶节点与一个目标值相关联。决策树分为分类树和回归树,常用于决策支持系统,能展示可能的决策及其结果。
#### 2.1.2 示例说明
以一个包含患者疼痛情况、体温和就医结果的数据集为例,相关预测属性为患者是否疼痛以及体温高低,类别为去医院或回家。决策树可以表示为以下规则:
- 如果患者有疼痛且高烧,应去医院。
- 如果患者有疼痛且低烧,应回家。
- 如果患者没有疼痛,应回家。
#### 2.1.3 常见算法
受 Hunt 算法启发,有多种决策树归纳算法,如分类与回归树(CART)、迭代二分器 3(ID3)、C4.5 以及非常快速决策树(VFDT)。
#### 2.1.4 Hunt 算法
```plaintext
Algorithm Hunt decision tree induction algorithm.
1: INPUT Dtrain current node training set
2: INPUT p the impurity measure
3: INPUT n the number of objects in the training set
4: if all objects in Dtrain belongs to the same class y then
5:
The current node is a leaf node labeled with class y
6: else
7:
Select a predictive attribute to split Dtrain using the imp
```
0
0
复制全文
相关推荐










