朴素贝叶斯（第二十八节课内容总结）

原创已于 2025-08-26 09:00:32 修改 · 512 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#朴素贝叶斯 #高斯朴素 #分类问题 #傅立叶分析

于 2025-08-25 18:19:35 首次发布

1. 贝叶斯公式的起源与逆向概率原理

贝叶斯公式由英国数学家托马斯·贝叶斯在18世纪提出，源于其生前为解决“逆概率”问题所撰写的文章，其思想在生前未被广泛认可，死后才被世人重视。
逆向概率是指在无法直接得知事件发生概率（如袋中黑白球比例）的前提下，通过观察实验结果（如摸出黑球）来推断其发生概率。
以学校性别与着装为例，通过已知“穿长裤”这一事件，反推“是女生”的概率，推导出贝叶斯公式的基本结构：
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}

2. 朴素贝叶斯在拼写纠正中的应用

当用户输入一个不在字典中的单词（如“THA”），系统需推测其真实意图的正确单词（如“the”、“that”）。
基于贝叶斯公式，系统计算每个候选单词（H₁, H₂, H₃…）的后验概率 P(H|D)，其中D为观测输入。
在实际计算中，P(D|H) 表示将输入单词转换为候选词所需的“增删改查”操作次数（即编辑距离），而 P(H) 表示该词在字典中的词频。
最终结果中，后验概率正比于“编辑距离 × 词频”，因此选择编辑距离小且词频高的候选词作为推荐结果，实现拼写自动纠正。

3. 朴素贝叶斯在垃圾邮件分类中的应用

问题为判断一封邮件是否为垃圾邮件，使用D表示邮件内容，H⁺表示垃圾邮件，H⁻表示正常邮件。
通过贝叶斯公式计算 P(H^+|D)，即在已知邮件内容下其为垃圾邮件的概率，进而决定分类结果。
先验概率（如历史数据中垃圾邮件占比）和条件概率（如某关键词在垃圾邮件中出现的概率）共同参与计算。

4. 自然语言处理中的稀疏性挑战

文本数据在转换为数字矩阵后，通常表现为“稀疏矩阵”，即绝大多数位置为0（未出现的词）。
因为稀疏矩阵在训练过程中会带来大量零值，导致求导困难（模型无法有效更新参数），是自然语言处理相较于计算机视觉的难点之一。
为解决该问题，自然语言处理领域发展出专门的网络结构（如词向量、RNN、Transformer等），以更高效地处理高维稀疏特征。

5.贝叶斯相关知识点

贝叶斯公式应用
（1）以垃圾邮件分类为例，通过计算垃圾邮件中单词出现的概率来判断邮件是否为垃圾邮件。例如，已知是垃圾邮件的情况下，某个单词出现的概率，以及这些概率在判断中的作用。（2）强调了单词出现频率的重要性，频率越大，相关概率越大，对判断的影响也越大。
条件独立性假设
在垃圾邮件分类中，假设垃圾邮件中单词的出现是条件独立的，即一个单词的出现与否不影响其他单词的出现概率。例如，已知是垃圾邮件时，第一个单词出现的概率与第二个单词出现的概率是独立的，这种假设简化了计算过程。
概率计算方式的转变
从计算整个邮件与已知垃圾邮件完全一致的概率（这种概率很小），转变为计算邮件中每个单词在垃圾邮件中出现的概率的乘积，使问题更易于解决。

6.朴素贝叶斯分类器相关知识点

朴素贝叶斯分类器的三种类型
- 多项式朴素贝叶斯
  - 适用于特征为离散型数据，如文本数据，特别是单词出现次数统计等稀疏矩阵数据。
  - 参数包括alpha（拉普拉斯平滑参数，可调节以提高准确率等），fit_prior（是否考虑先验概率，默认为True，先验概率在文本分类等场景中很重要）。
- 高斯朴素贝叶斯
  - 适用于特征为连续型数据，如具体的数字等，其特征呈正态分布。
  - 当特征为连续型变量时，使用多项式模型会导致误差，而高斯模型能更好地描述数据，提高准确率。
- 伯努利朴素贝叶斯
  - 适用于特征为离散型变量且只有零和一两种情况的场景。
  - 要求每个特征的取值都是布尔类型，如在文本分类中表示特征是否出现在文档中。
  - 参数包括alpha（含义与多项式朴素贝叶斯相同），binarize（二值化阈值，用于将特征转换为布尔类型，若不设定阈值则默认为零，但需根据数据集调整）。
代码相关操作
- 使用fit方法对训练集的特征和标签进行拟合。
- 在预测时，输入的是测试集的特征，通过predict方法进行预测。
- 可以使用predict_proba方法得到每个类别的概率值，还有predict_log_proba方法（在一些特殊计算中使用log会更方便）。
- 使用score方法对数据集进行评估。

7. 垃圾邮件概率计算的原理

通过分析邮件中每个单词在垃圾邮件中的出现概率，推导出邮件属于垃圾邮件的条件概率。
每个单词在垃圾邮件中的出现是相互独立的，因此可以将联合概率分解为各单词概率的乘积。
单词出现频率越高，其在垃圾邮件中出现的概率越大，从而提升邮件被判定为垃圾邮件的置信度。

8. 朴素贝叶斯模型的三种类型及适用场景

多项式朴素贝叶斯：适用于文本分类，特别是处理稀疏矩阵和单词频率统计，如垃圾邮件分类和拼写纠错。
高斯朴素贝叶斯：适用于连续型特征数据，假设特征服从正态分布，能够更好地描述连续变量的分布规律。
伯努利朴素贝叶斯：适用于二元特征数据（0或1），每个特征表示单词是否在文档中出现，适用于特征为布尔型的分类任务。

9. 模型关键参数与配置说明

alpha 参数：控制拉普拉斯平滑的强度，默认为0.1，用于避免概率为零的情况，可通过调整影响模型结果。
是否使用先验概率：默认启用，先验概率通常基于数据集中各类别词频计算，对模型性能影响显著。
特征二值化阈值：用于将连续或非二元特征转换为0或1，可通过设置阈值实现特征标准化，适用于伯努利模型的输入准备。