10.1 变分推断 变 分 的 ⽅ 法 起 源 于 18 世 纪 的 欧 拉、 拉 格 朗 ⽇, 以 及 其 他 的 关 于 变 分 法 (calculus of variations)的研究。标准的微积分关注的是寻找函数的导数。我们可以将函数想象为⼀个映 射,这个映射以⼀个变量的值作为输⼊,返回函数值作为输出。函数的导数描述了当输⼊变量 有⼀个⽆限⼩的变化时,输出值如何变化。类似地,我们可以将泛函(functional)作为⼀个映 射,它以⼀个函数作为输⼊,返回泛函的值作为输出。⼀个例⼦是熵H[p],它的输⼊是⼀个概 率分布p(x),返回下⾯的量 H[p] = − ∫ p(x) ln p(x) dx (10.1) 作为输出。我们可以引⼊泛函的导数(functional derivative)的概念,它表达了输⼊函数产⽣⽆ 穷⼩的改变时,泛函的值的变化情况(Feynman et al., 1964)。变分法的规则与标准的微积分规 则很相似,在附录D中讨论。许多问题可以表⽰为最优化问题,其中需要最优化的量是⼀个泛 函。研究所有可能的输⼊函数,找到最⼤化或者最⼩化泛函的函数就是问题的解。变分⽅法有 很⼴泛的适⽤性,包括有限元⽅法(Kapur, 1989)和最⼤熵⽅法(Schwarz, 1988)。 虽然变分⽅法本质上没有任何近似的东西,但是它们通常会被⽤于寻找近似解。寻找近似解 的过程可以这样完成:限制需要最优化算法搜索的函数的范围,例如只考虑⼆次函数,或者考 虑由固定的基函数线性组合⽽成的函数,其中只有线性组合的系数可以发⽣变化。在概率推断 的应⽤中,限制条件的形式可以是可分解的假设(Jordan et al., 1999; Jaakkola, 2001)。 现在,让我们详细讨论变分最优化的概念如何应⽤于推断问题。假设我们有⼀个纯粹的贝叶 斯模型,其中每个参数都有⼀个先验概率分布。这个模型也可以有潜在变量以及参数,我们会 把所有潜在变量和参数组成的集合记作Z。类似地,我们会把所有观测变量的集合记作X。例 如,我们可能有N个独⽴同分布的数据,其中X = {x1, . . . ,xN}且Z = {z1, . . . , zN}。我们的 316































- 粉丝: 29
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 工作分解结构在施工项目管理计划阶段中的应用.doc
- 2022年电大形成性考核VB试题及答案课案.doc
- 论通信施工企业品牌战略.doc
- 上海工程技术大学C语言实验报告.doc
- 数据库课程设计--宾馆客房信息管理系统.doc
- swift-Swift资源
- 网络服务协议范本.doc
- 基于matlab的小工程-Matlab资源
- 2023年江苏省计算机二级考试试题.docx
- 精品基于web的新闻发布管理系统的研究与设计毕业设计.doc
- 软件测试通过及BUG分级标准.doc
- 网络交易退货运费险状况与进步.doc
- MiriaManager-机器人开发资源
- 洛阳师范学院期末考试题库《数据库概论》复习重点.doc
- 基于ARM的IP网络电话系统设计.doc
- 项目管理和APQP.pptx


