第十九章 近似推断 Approximate Inference
2020-4-13 深度学习笔记19 - 近似推断 1 (把推断视作优化问题-证据下界,期望最大化EM-最大化下界 )
最大后验推断和稀疏编码
1.最大后验推断MAP
当训练带有潜变量的概率模型时,我们通常关注于计算 p ( h ∣ v ) p(h\mid v) p(h∣v)。 另一种可选的推断形式是计算一个缺失变量的最可能值来代替在所有可能值的完整分布上的推断。 在潜变量模型中,这意味着计算
这被称作最大后验推断
maximum a posteriori,简称MAP推断。
具体地说,我们令分布 q q q满足一个Dirac分布:
q ( h ∣ v ) = δ ( h − μ ) q(h∣v)=δ(h−μ) q(h∣v)=δ(h−μ)
Dirac分布是一种常见的概率分布。
Dirac分布可保证概率分布中所有质量都集中在一个点上
Dirac 分布经常作为 经验分布(empirical distribution)的一个组成部分出现
意味着我们可以通过 u u u完全控制分布 q q