贝叶斯学习原理与共轭先验详解:以CS228概率图模型笔记为例
引言:最大似然估计的局限性
在传统机器学习方法中,最大似然估计(MLE)是最基础的学习方法之一。然而,CS228课程笔记通过两个典型案例揭示了MLE的固有缺陷:
案例1:硬币投掷实验
- 投掷10次出现6次正面时,MLE估计θ=0.6
- 投掷100次出现60次正面时,MLE依然给出θ=0.6
- 关键问题:MLE无法体现随着数据量增加带来的置信度变化
案例2:词袋语言模型
- 遇到未登录词(OOV)时概率直接归零
- 实际应用中需要为OOV保留一定概率空间
贝叶斯学习框架
贝叶斯学习通过引入参数θ的概率分布,建立了完整的概率建模框架:
- 先验分布(Prior):p(θ)表示对参数的初始信念
- 似然函数(Likelihood):p(D|θ)表示数据在给定参数下的概率
- 后验分布(Posterior):通过贝叶斯定理计算p(θ|D)∝p(D|θ)p(θ)
这种框架的优势在于:
- 自然处理参数不确定性
- 小数据场景下表现更稳健
- 提供完整的概率解释
共轭先验:理论核心
1. Beta-Bernoulli共轭
Beta分布定义:
p(θ) = Beta(θ|α_H,α_T) ∝ θ^(α_H-1)(1-θ)^(α_T-1)
- 期望:E[θ] = α_H/(α_H+α_T)
- 方差:Var(θ)随α增大而减小
后验更新规则: 观察到N_H次正面和N_T次反面后:
p(θ|D) = Beta(θ|α_H+N_H, α_T+N_T)
这一性质使得后验计算简化为简单的参数加法。
2. Dirichlet-Categorical共轭
Dirichlet分布定义:
p(θ) = Dirichlet(θ|α) ∝ ∏θ_k^(α_k-1)
- K维概率单纯形上的分布
- 参数α控制分布形态
后验更新: 观察到各类别计数N_k后:
p(θ|D) = Dirichlet(θ|α+N)
这一性质直接对应NLP中的Laplace平滑技术。
深入理解共轭性
-
数学本质: 共轭性保证了先验与后验属于同一分布族,使贝叶斯更新简化为参数调整。
-
直观解释:
- 先验参数α可视为"伪计数"
- 后验参数α+N是实际观察与伪计数的加权组合
- α越大表示先验信念越强,需要更多数据改变后验
- 应用价值:
- 计算高效,适合在线学习
- 超参数解释明确
- 为简单模型提供正则化机制
实践指导与扩展思考
- 先验选择原则:
- 无信息先验:均匀分布(α=1)
- 弱信息先验:小α值
- 强信息先验:大α值
- 现代发展:
- 非共轭先验在复杂模型中的应用
- MCMC和变分推断等近似方法
- 深度学习与贝叶斯方法的结合
- 注意事项:
- 共轭先验可能限制模型表达能力
- 高维参数空间中的计算挑战
- 先验误设(prior misspecification)的风险
总结
CS228课程笔记通过系统性的理论推导和典型案例,完整展现了贝叶斯学习的核心思想与实现方法。共轭先验作为贝叶斯推断的重要工具,既具有优美的数学性质,又为实际应用提供了高效的计算范式。理解这些基础概念对于掌握更复杂的概率图模型和现代机器学习方法至关重要。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考