目 录
1 朴素贝叶斯法
朴素贝叶斯法(naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯法是典型的生成方法,即由数据学习联合概率分布 P ( X , Y ) P(X, Y) P(X,Y) ,进而求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X) 作为预测的模型,更加关注 X X X 与 Y Y Y 的关系。而前面学习的回归、k-NN、感知机以及后面要学的SVM、决策树和提升方法等都是判别方法(由数据直接学习 f ( X ) f(X) f(X) 或者 P ( Y ∣ X ) P(Y|X) P(Y∣X) 作为预测的模型,关心对给定的输入 X X X,应预测什么样的输出 Y Y Y)。
1.1 学习过程
数据:训练数据集 T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) T = {(x_1, y_1),(x_2, y_2),\dots,(x_N, y_N)} T=(x1,y1),(x2,y2),…,(xN,yN) 由 P ( X , Y ) P(X, Y) P(X,Y) 独立同分布产生,其中 x ∈ X ⊆ R n x \in \mathcal{X} \subseteq \mathbf{R}^n x∈X⊆Rn 为 n 维特征向量, y ∈ Y = c 1 , c 2 , ⋯   , c K y \in \mathcal{Y} = {c_1, c_2, \cdots, c_K} y∈Y=c1,c2,⋯,cK 为类标记, X X X 是定义在输入空间 X \mathcal{X} X 上的随机向量, Y Y Y 是定义在输出空间 Y \mathcal{Y} Y 上的随机变量, P ( X , Y ) P(X, Y) P(X,Y) 是 X X X 和 Y Y Y 的联合概率分布。
目标: P ( X , Y ) P(X, Y) P(X,Y)
(1) 学习先验概率分布 P ( Y = c k ) P(Y = c_k) P(Y=ck):
(2) 学习条件概率分布 P ( X = x ∣ Y = c k ) P(X = x|Y = c_k) P(X=x∣Y=ck):
P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , X ( 2 ) = x ( 2 ) , ⋯   , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) (特征独立) \begin{aligned} P(X = x|Y = c_k) & = P(X^{(1)} = x^{(1)}, X^{(2)} = x^{(2)}, \cdots, X^{(n)} = x^{(n)}|Y = c_k) \\ & = \prod_{j = 1}^{n}P(X^{(j)} = x^{(j)}|Y = c_k) \quad \text{(特征独立)} \end{aligned} P(X=x∣Y=ck)=P(X(1)=x(1),X(2)=x(2),⋯,X(n)=x(n)∣Y=ck)=j=1∏nP(X(j)=x(j)∣Y=ck)(特征独立)
分类:将后验概率最大的类作为 x x x 的输出
P ( Y = c k ∣ X = x ) = P ( X = x , Y = c k ) P ( X = x ) = P ( X = x ∣ Y = c k ) P ( Y = c k ) ∑ k = 1 K P ( X = x ∣ Y = c k ) P ( Y = c k ) (贝叶斯定理) = [ ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) ] P ( Y = c k ) ∑ k = 1 K [ ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) ] P ( Y = c k ) ∝ [ ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) ] P ( Y = c k ) (分母对所有 c k 都是相同的) \begin{aligned} P(Y = c_k|X = x) & = \frac{P(X = x, Y = c_k)}{P(X = x)} \\ & = \frac{P(X = x|Y = c_k)P(Y = c_k)}{\sum_{k = 1}^{K}P(X = x|Y = c_k)P(Y = c_k)} \quad \text{(贝叶斯定理)} \\ & = \frac{\left[\prod_{j = 1}^{n}P(X^{(j)} = x^{(j)}|Y = c_k)\right]P(Y = c_k)}{\sum_{k = 1}^{K}\left[\prod_{j = 1}^{n}P(X^{(j)} = x^{(j)}|Y = c_k)\right]P(Y = c_k)} \\ & \propto \left[\prod_{j = 1}^{n}P(X^{(j)} = x^{(j)}|Y = c_k)\right]P(Y = c_k) \quad \text{(分母对所有}c_k\text{都是相同的)} \end{aligned} P(Y=ck∣X=x)=P(X=x)P(X=x,Y=ck)=∑k=1KP(X=x∣Y=ck)P(Y=ck)P(X=x∣Y=ck)P(Y=ck)