15、朴素贝叶斯与简单线性回归:原理、实现与应用

朴素贝叶斯与简单线性回归:原理、实现与应用

1. 朴素贝叶斯垃圾邮件过滤器

1.1 问题背景

在社交网络中,用户常收到垃圾邮件,如致富方案、无需处方的药品广告和营利性数据科学认证项目等。为解决这一问题,需要使用数据科学方法过滤这些垃圾邮件。

1.2 简单垃圾邮件过滤器

假设从所有可能的消息中随机接收一条消息,设事件 $S$ 为“消息是垃圾邮件”,事件 $B$ 为“消息包含单词 bitcoin”。根据贝叶斯定理,消息包含 bitcoin 时是垃圾邮件的概率为:
$P(S|B)=\frac{P(B|S)P(S)}{P(B|S)P(S)+P(B|\neg S)P(\neg S)}$
若假设任何消息是垃圾邮件和非垃圾邮件的概率相等,即 $P(S)=P(\neg S)=0.5$,则公式简化为:
$P(S|B)=\frac{P(B|S)}{P(B|S)+P(B|\neg S)}$
例如,若 50% 的垃圾邮件包含 bitcoin,而只有 1% 的非垃圾邮件包含该词,则包含 bitcoin 的邮件是垃圾邮件的概率为:
$\frac{0.5}{0.5 + 0.01} = 98\%$

1.3 更复杂的垃圾邮件过滤器

假设有一个包含多个单词 $w_1, \cdots, w_n$ 的词汇表,用 $X_i$ 表示“消息包含单词 $w_i$”这一事件。同时,我们有对 $P(X_i|S)$(垃圾邮件包含第 $i$ 个单词的概率)和 $P(X_i|\neg S)$(非垃圾邮件包含第 $i$ 个单词的概率)的估计。

朴素贝叶斯的关键假设是,在消息是垃圾邮件或非垃圾邮件的条

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值