统计学习方法-李航 第四章 朴素贝叶斯法

本文深入探讨了朴素贝叶斯法,一种基于贝叶斯定理与特征条件独立假设的分类方法。详细讲解了朴素贝叶斯法的学习与分类过程,包括条件独立性假设、维数灾难、参数估计(极大似然估计与贝叶斯估计)、以及如何解决零概率问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。训练的时候,学习输入输出的联合概率分布;分类的时候,利用贝叶斯定理计算后验概率最大的输出。

朴素贝叶斯法的学习与分类

在这里插入图片描述
而条件概率分布条件概率分布
在这里插入图片描述
参数数量是指数级的,也就是X和Y的组合很多,假设xj可能取值Sj个,Y可能取值有K个,那么参数的个数是参数个数
.png
特别地,取xj=S,那么参数个数为KSn,当维数n很大的时候,就会发生维数灾难。

维数灾难

一维空间中,把一个单位空间(退化为区间)以每个点距离不超过0.01采样,需要102个平均分布的采样点,而在10维度空间中,需要1020个点才行。这种指数级的复杂度增长被称为维数灾难。

为了计算它,朴素贝叶斯法对它做了条件独立性的假设:

条件独立性假设.png

也就是各个维度的特征在类确定的情况下都是独立分布的。这一假设简化了计算,也牺牲了一定的分类准确率。

在这里插入图片描述

朴素贝叶斯法的参数估计
极大似然估计

前面说过,朴素贝叶斯法要学习的东西就是P(Y=ck)和P(X=x|Y=ck),这两个概率的估计用极大似然估计法(简单讲,就是用样本猜测模型参数,或者说使得似然函数最大的参数)进行:
先验概率估计.png
也就是用样本中ck的出现次数除以样本容量。
条件概率分布估计.png
分子是样本中变量组合的出现次数,分母是上面说过的样本中ck的出现次数。

学习与分类算法

在这里插入图片描述
例题:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

贝叶斯估计

最大似然估计有个隐患,假设训练数据中没有出现某种参数和类别的组合怎么办?此时估计的概率值为0,但是这不代表真实数据中就没有这样的组合。解决办法是采用贝叶斯估计,条件概率的贝叶斯估计:
在这里插入图片描述
其中平滑因子λ≥0,Sj表示xj可能取值的种数。分子和分母分别比最大似然估计多了一点东西,其意义是在随机变量每个取值的频数上加一个常量平滑因子λ≥0。当此常量取0时,就是最大似然估计,当此常量取1时,称为拉普拉斯平滑
2、先验概率的贝叶斯估计:

在这里插入图片描述
K为先验概率个数。
在这里插入图片描述

参考:http://www.hankcs.com/ml/naive-bayesian-method.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值