朴素贝叶斯与简单线性回归:原理、实现与应用
1. 朴素贝叶斯垃圾邮件过滤器
1.1 问题背景
在社交网络中,用户常收到垃圾邮件,如致富方案、无需处方的药品广告和营利性数据科学认证项目等。为解决这一问题,需要使用数据科学方法过滤这些垃圾邮件。
1.2 简单垃圾邮件过滤器
假设从所有可能的消息中随机接收一条消息,设事件 $S$ 为“消息是垃圾邮件”,事件 $B$ 为“消息包含单词 bitcoin”。根据贝叶斯定理,消息包含 bitcoin 时是垃圾邮件的概率为:
$P(S|B)=\frac{P(B|S)P(S)}{P(B|S)P(S)+P(B|\neg S)P(\neg S)}$
若假设任何消息是垃圾邮件和非垃圾邮件的概率相等,即 $P(S)=P(\neg S)=0.5$,则公式简化为:
$P(S|B)=\frac{P(B|S)}{P(B|S)+P(B|\neg S)}$
例如,若 50% 的垃圾邮件包含 bitcoin,而只有 1% 的非垃圾邮件包含该词,则包含 bitcoin 的邮件是垃圾邮件的概率为:
$\frac{0.5}{0.5 + 0.01} = 98\%$
1.3 更复杂的垃圾邮件过滤器
假设有一个包含多个单词 $w_1, \cdots, w_n$ 的词汇表,用 $X_i$ 表示“消息包含单词 $w_i$”这一事件。同时,我们有对 $P(X_i|S)$(垃圾邮件包含第 $i$ 个单词的概率)和 $P(X_i|\neg S)$(非垃圾邮件包含第 $i$ 个单词的概率)的估计。
朴素贝叶斯的关键假设是,在消息是垃圾邮件或非垃圾邮件的条