《统计学习方法》第四章朴素贝叶斯学习笔记

最新推荐文章于 2022-10-09 17:31:26 发布

原创最新推荐文章于 2022-10-09 17:31:26 发布 · 990 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#统计学习方法 #机器学习 #朴素贝叶斯 #分类算法

机器学习同时被 2 个专栏收录

9 篇文章

订阅专栏

统计学习方法

8 篇文章

订阅专栏

本文介绍了朴素贝叶斯法的基础原理，包括条件独立性的基本假设、极大似然估计及贝叶斯估计的方法，并通过实例解释了如何进行分类预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布 $P(X,Y)$ ，然后求得后验概率分布 $P(Y|X)$ 。具体是利用训练数据学习 $P(X|Y)$ 和 $P(Y)$ 的估计，得到联合概率分布： $P(X,Y)=P(Y)P(X|Y)$ 。
朴素贝叶斯法的基本假设是条件独立性：

P (X = x | Y = c k) = = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)

$\begin{eqnarray*}P(X=x|Y=c_k)&=&P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)\\ & = & \prod_{j=1}^n{P(X^{(j)}=x^{(j)}|Y=c_k)} \end{eqnarray*}$
这是一个较强的假设。由于这一假设，模型包含该的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效，且易于实现。其缺点是分类的性能不一定很高。
朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。

P (Y | X) = P ( X , Y ) P ( X ) = P ( Y ) P ( X | Y ) \sum Y P ( Y ) P ( X | Y )

$P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{P(Y)P(X|Y)}{\sum\limits_YP(Y)P(X|Y)}$

一、极大似然估计

估计两部分参数，先验概率 $P(Y=c_k)$ 和条件概率 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 。
1. 先验概率 $P(Y=c_k)$ 的极大似然估计是：

P (Y = c k) = \sum i = 1 N I ( y i = c k ) N, k = 1, 2, \dots, K

$P(Y=c_k)=\frac{\sum\limits_{i=1}^NI(y_i=c_k)}{N},k=1,2,\cdots,K$
2. 设第j个特征

x(j) $x^{(j)}$ 可能取值的集合为

{aj1,aj2,⋯,ajSj} $\{a_{j1},a_{j2},\cdots,a_{jS_j}\}$ ，条件概率

P(X(j)=ajl|Y=ck) $P(X^{(j)}=a_{jl}|Y=c_k)$ 的意义是在某一类

Y=ck $Y=c_k$ 的条件下，x的第j个分量特征取值

ajl $a_{jl}$ 的概率。

P (X (j) = a j l | Y = c k) = \sum i = 1 N I ( x ( j ) i = a j l , y i = c k ) \sum i = 1 N I ( y i = c k )

$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{{\sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}}{\sum\limits_{i=1}^NI(y_i=c_k)}$

j = 1, 2, \dots, n; l = 1, 2, \dots, S j; k = 1, 2, \dots, K

$j=1,2,\cdots,n;l=1,2,\cdots,S_j;k=1,2,\cdots,K$
上式中，

xji $x_i^j$ 是第i个样本的第j个特征；

ajl $a_{jl}$ 是第j个特征可能取的第l个值；

I $I$ 为指示函数。总的需要估计的参数数量为：

k∑nj=1Sj $k\sum_{j=1}^nS_j$ 。

二、学习与分类算法

（1）计算先验概率和条件概率

P (Y = c k) = \sum i = 1 N I ( y i = c k ) N, k = 1, 2, \dots, K

$P(Y=c_k)=\frac{\sum\limits_{i=1}^NI(y_i=c_k)}{N},k=1,2,\cdots,K$

P (X (j) = a j l | Y = c k) = \sum i = 1 N I ( x ( j ) i = a j l , y i = c k ) \sum i = 1 N I ( y i = c k )

$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{{\sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}}{\sum\limits_{i=1}^NI(y_i=c_k)}$

j = 1, 2, \dots, n; l = 1, 2, \dots, S j; k = 1, 2, \dots, K

$j=1,2,\cdots,n;l=1,2,\cdots,S_j;k=1,2,\cdots,K$
（2）对于给定的实例

x=(x(1),x(2),⋯,x(n))T $x=(x^{(1)},x^{(2)},\cdots,x^{(n)})^T$ ，计算

P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k), k = 1, 2, \dots, K

$P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k),k=1,2,\cdots,K$
（3）确定实例x所属的类

y = a r g m a x c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)

$y=\mathop{argmax}_{c_k}P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$

书中的一个例子：

三、贝叶斯估计

极大似然估计时参数会产生0频问题，会影响到后验概率的计算结果，使分类产生偏差。采用贝叶斯估计可以解决这个问题。
先验概率的贝叶斯估计是：

P λ (Y = c k) = \sum i = 1 N I ( y i = c k ) + λ N + K λ

$P_\lambda(Y=c_k)=\frac{ \displaystyle{\sum_{i=1}^NI(y_i=c_k)}+\lambda}{N+K\lambda}$
上式中，

K $K$ 表示类别数目。
条件概率的贝叶斯估计是：

P λ (X (j) = a j l | Y = c k) = \sum i = 1 N I ( x ( j ) i = a j l , y i = c k ) + λ \sum i = 1 N I ( y i = c k ) + S j λ

$P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{{ \sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}+\lambda}{ \sum\limits_{i=1}^NI(y_i=c_k)+S_j\lambda}$
上式中，

Sj $S_j$ 表示第

j $j$ 个特征的取值个数。
以上两个公式中，当

λ=0 $\lambda=0$ 时就是极大似然估计。常取

λ=1 $\lambda=1$ ，这时称为拉普拉斯平滑。

例子：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。