由于学习《机器学习:算法原理与编程实践》,对一些算法进行总结,加深理解与记忆。
1、贝叶斯公式理解
我们上高中学概率就有接触贝叶斯公式:其中P(A)为样本空间中事件A的概率,P(B)为样本空间中事件B的概率,P(A|B)为事件B发生的条件下事件A发生的概率,P(B|A)为事件A发生的条件下事件B的概率,P(A)和P(B)称为全概率,P(A|B)和P(B|A)称为条件概率。
例:假设,样本有10个苹果(8个红色,2个黄色),有10个梨(9个黄色,1个绿色)。我们现在仅考察颜色特征,现在我们任取一个黄色的水果,那么这个水果是梨的概率是多少呢?
解:根据问题分析我们要求解的目标是P(梨|黄色),那么根据上述贝叶斯公式有:P(梨|黄色) = P(黄色|梨)P(梨)/P(黄色)
那么根据样本空间知道10个梨当中有9个是黄色的,则P(黄色|梨) = 9/10 = 0.9(称为先验概率);P(梨) = 10/(10+10) = 0.5(一共有20个水果,其中有10个是梨);P(黄色) = 11/20 = 0.55(一共有20个水果,其中有2个黄色苹果,9个黄色梨,则11个黄色水果)。
则P(梨|黄色)= 0.9*0.5/0.55 = 0.818 = 81.8%
2、朴素贝叶斯分类
朴素贝叶斯分类是一种非常简单的分类方法,因其思想基础的简单性所以称为朴素:一个对象的特征向量中每个维度都是相互独立的。例如,黄色是苹果和梨共同的属性,但是苹果和梨是相互独立的;对于文本分类则认为词袋中的两两词之间的关系是相互独立的。下面我们将扩展到多维的情况:
(1)设x={a1,a2,…,am}为一个待分类项,而每个a为x的一个特征属性。
(2)有类别集合C={y1,y2,…,yn}。
(3)计算P(y1|x