机器学习算法(七):朴素贝叶斯方法
朴素贝叶斯方法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
朴素贝叶斯方法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设是用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率,因为忽略掉了各项之间的联系。
贝叶斯决策论
假设有N种可能的类别标记,即y={ c1,c2,...,cN},λij是将一个真是标记为cj的样本误分类为ci所产生的损失。基于后验概率P(cj|x)可获得将样本x分类为ci所产生的期望损失,即在样本x上的『条件风险』:
R(ci|x)=∑j=1NλijP(cj|x)
我们的任务是寻找一个判定准则h:X→Y以最小化总体风险:
R(h)=Ex[R(h(x)|x)]
对每个样本x,若h能最小化条件风险R(h(x)|x),则总体风险R(h)也能被最小化。这就产生了贝叶斯判定准则:为最小化总体风险,只需要在每个样本上选择那个能使条件风险