朴素贝叶斯分类器及Python手写实现

一只蜗牛儿

于 2024-12-25 08:50:15 发布

阅读量715

点赞数 16

CC 4.0 BY-SA版权

文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_42978535/article/details/144695949

朴素贝叶斯分类器（Naive Bayes Classifier）是一种简单且高效的分类算法，基于贝叶斯定理并假设特征之间相互独立。在许多实际问题中，尤其是在文本分类、垃圾邮件过滤和情感分析等领域，朴素贝叶斯分类器因其计算效率高和易于实现而广泛应用。

1. 贝叶斯定理

贝叶斯定理描述了在已知某些事件的条件下，如何更新事件的概率。其公式如下：

[
P(C|X) = \frac{P(X|C) \cdot P©}{P(X)}
]

(P(C|X)) 是在已知特征 (X) 的情况下，属于类 (C) 的后验概率。
(P(X|C)) 是在类 (C) 条件下，特征 (X) 的似然性。
(P©) 是类 © 的先验概率。
(P(X)) 是特征 (X) 的边际概率。

朴素贝叶斯的核心假设：

特征之间是条件独立的。
每个特征都与目标变量独立，且各自的分布是已知的（通常是高斯分布、伯努利分布或多项式分布，取决于特征类型）。

2. 朴素贝叶斯分类器类型

高斯朴素贝叶斯（Gaussian Naive Bayes）：适用于连续特征，假设数据符合高斯分布。
多项式朴素贝叶斯（Multinomial Naive Bayes）：适用于离散特征，常用于文本分类（如词频）。
伯努利朴素贝叶斯（Bernoulli Naive Bayes）：适用于二值特征，通常在文本数据中用于表示单词是否出现。

3. 朴素贝叶斯分类器的工作原理

假设我们的目标是预测一个数据点 (X = [x_1, x_2, …, x_n]) 属于某个类别 (C)。朴素贝叶斯分类器通过计算每个类别 (C) 的后验概率 (P(C|X))，选择具有最大后验概率的类别：

通过特征独立性假设，我们可以将 (P(X|C)) 分解为：

[
P(X|C) = P(x_1|C) \cdot P(x_2|C) \cdot … \cdot P(x_n|C)
]

最终，朴素贝叶斯分类器选择概率最大的类别 (C) 作为预测结果。

4. Python 手写朴素贝叶斯分类器

接下来我们通过一个具体的示例来手写实现一个朴素贝叶斯分类器。我们将使用 高斯朴素贝叶斯，适用于连续特征。

4.1 数据预处理

首先，准备一些简单的示例数据，并进行预处理。

import numpy as np
import pandas as pd

# 示例数据：四个样本，两个特征，两个类别
data = {
   
   
    'feature_1': [1.2, 1.9, 3.1, 3.5],
    'feature_2': [2.2, 2.8, 3.8, 3.9],
    'label': [0, 0, 1, 1]  # 类别 0 和 1
}

df = pd<