【机器学习笔记】——朴素贝叶斯法（Naive Bayes）

最新推荐文章于 2024-08-29 10:00:00 发布

孙悟充

最新推荐文章于 2024-08-29 10:00:00 发布

阅读量1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： python 机器学习文章标签： python 机器学习朴素贝叶斯 Naive Bayes

本文链接：https://blog.csdn.net/huanyingzhizai/article/details/94035803

本文介绍了朴素贝叶斯法的基本原理，包括如何根据后验概率进行分类，以及如何通过极大似然估计和贝叶斯估计求解概率。讨论了算法的优缺点，如分类效率高、适合小规模数据，但假设特征独立可能导致分类效果不佳。此外，还探讨了多项分布、高斯和伯努利朴素贝叶斯的差异及其在sklearn库中的实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 朴素贝叶斯法

朴素贝叶斯法（naive Bayes）是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯法是典型的生成方法，即由数据学习联合概率分布 $P (X, Y)$ ，进而求出条件概率分布 $P (Y ∣ X)$ 作为预测的模型，更加关注 $X$ 与 $Y$ 的关系。而前面学习的回归、k-NN、感知机以及后面要学的SVM、决策树和提升方法等都是判别方法（由数据直接学习 $f (X)$ 或者 $P (Y ∣ X)$ 作为预测的模型，关心对给定的输入 $X$ ，应预测什么样的输出 $Y$ ）。

1.1 学习过程

数据：训练数据集 ${(x_1, y_1),(x_2, y_2),\dots,(x_N, y_N)}$ 由 $P (X, Y)$ 独立同分布产生，其中 $\in \mathcal{X} \subseteq \mathbf{R}^n$ 为 n 维特征向量， $\in \mathcal{Y} = {c_1, c_2, \cdots, c_K}$ 为类标记， $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机向量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量， $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。

目标： $P (X, Y)$

(1) 学习先验概率分布 $P(Y = c_k)$ ：

(2) 学习条件概率分布 $P(X = x|Y = c_k)$ ：

$\begin{aligned} P(X = x|Y = c_k) & = P(X^{(1)} = x^{(1)}, X^{(2)} = x^{(2)}, \cdots, X^{(n)} = x^{(n)}|Y = c_k) \\ & = \prod_{j = 1}^{n}P(X^{(j)} = x^{(j)}|Y = c_k) \quad \text{(特征独立)} \end{aligned}$

分类：将后验概率最大的类作为 $x$ 的输出

$\begin{aligned} P(Y = c_k|X = x) & = \frac{P(X = x, Y = c_k)}{P(X = x)} \\ & = \frac{P(X = x|Y = c_k)P(Y = c_k)}{\sum_{k = 1}^{K}P(X = x|Y = c_k)P(Y = c_k)} \quad \text{(贝叶斯定理)} \\ & = \frac{\left[\prod_{j = 1}^{n}P(X^{(j)} = x^{(j)}|Y = c_k)\right]P(Y = c_k)}{\sum_{k = 1}^{K}\left[\prod_{j = 1}^{n}P(X^{(j)} = x^{(j)}|Y = c_k)\right]P(Y = c_k)} \\ & \propto \left[\prod_{j = 1}^{n}P(X^{(j)} = x^{(j)}|Y = c_k)\right]P(Y = c_k) \quad \text{(分母对所有}c_k\text{都是相同的)} \end{aligned}$