概率统计和贝叶斯网络

本文深入探讨了概率统计中的贝叶斯网络,包括基本定义、联合分布公式、条件独立关系和链式规则。文章详细阐述了贝叶斯网络中的精确推理方法,如枚举和变量消元算法,以及近似推理技术,如先验采样、拒绝采样、似然加权和Gibbs采样。通过实例解析了各种推理方法的优缺点,为理解和应用贝叶斯网络提供了清晰的指南。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、常用公式

边缘化

\textbf{P}\left ( \textbf{Y} \right )=\sum_{\textbf{z}\in \textbf{Z}}^{}\textbf{P}\left ( \textbf{Y,z} \right )

条件化

\textbf{P}\left ( \textbf{Y} \right )=\sum_{\textbf{z}\in \textbf{Z}}^{}\textbf{P}\left ( \textbf{Y|z} \right )\textbf{P}\left ( \textbf{z} \right )

归一化

\textbf{P}(\textbf{X}\textbf{|}\textbf{e})=\alpha \textbf{P}(\textbf{X}\textbf{,}\textbf{e})=\alpha \sum_{\textbf{y}\in \textbf{Y}}^{}\textbf{P}\left ( \textbf{X,e,y} \right )

归一化的一般贝叶斯规则

\textbf{P}\left ( \textbf{Y}|\textbf{X} \right )=\alpha \textbf{P}\left ( \textbf{X|Y} \right )P\left ( \textbf{Y} \right )

条件独立性(朴素贝叶斯模型)

\textbf{P}\left ( Cause,Effect_{1} ,...,Effect_{n}\right )=\textbf{P}(Cause)\prod_{i}^{n}\textbf{P}\left ( Effect_{i} |Cause\right )

二、贝叶斯网络(Bayesian networks)

1、定义

贝叶斯网络可以本质上表示任何完全联合概率分布。贝叶斯网络是一个有向图,每个结点都标注了定量的概率信息,定义:

1、每个结点对应一个随机变量,这个变量可以是离散的或者连续的。

2、一组有向边或箭头连接结点对。图中没有有向回路,即贝叶斯网络为有向无环图(DAG)。

3、每个结点X_{i}有一个条件概率分布\textbf{P}\left ( X_{i}|Parents\left ( X_{i} \right ) \right )量化其父结点对该结点的直接影响。

2、贝叶斯网络中联合分布公式

P\left (x _{1},...,x_{n} \right )=\prod_{i=1}^{n}P\left ( x_{i}|parents\left ( X_{i} \right ) \right )

其中parents\left (X _{i} \right )X_{i}出现在x _{1},...,x_{n}的父结点取值。

3、链式规则

P\left ( x_{1},...,x_{n} \right )=P\left ( x_{n}|x_{n-1},...,x_{1} \right )P\left ( x_{n-1}|x_{n-2},...,x_{1} \right )...P\left ( x_{2}|x_{1} \right )P(x_{1})=\prod_{i=1}^{n}P\left (x_{i}|x_{i-1},...,x_{1} \right )

链式规则对于任何随机变量集合都是成立的。需要满足的是Parents(X_{i})\subseteq \left \{ X_{i-1},...,X_{1} \right \},也即x _{1},...,x_{n}是贝叶斯网络的一个拓扑排序

在贝叶斯网络中,假设每个随机变量受到至多k个其他随机变量的直接影响,则对于n个布尔随机变量的贝叶斯网络的信息量至多是n2^{k},相对于n线性的。这比联合概率分布表示需要的信息量2^{n}(指数级)要好得多。

网络结构依赖于引入结点的次序。在每个网络中,我们都是按照从上到下的次序引入结点。

4、贝叶斯网络中的条件独立关系

定理:给定父结点后,每个变量条件独立于它的非后代结点。

给定父结点(灰色区域中的各Ui),结点X条件独立于它的非后代结点(各Zi,j)

定理:给定一个结点的父结点、子结点以及子结点的父结点(即给定它的马尔可夫覆盖,Markov blanket) ,则这个结点条件独立于网络中的所有其他结点。

给定马尔可夫覆盖(灰色区域),结点X条件独立于网络中的所有其他结点
5、紧致的条件独立分布

显然,贝叶斯网络的条件概率表(CPT)仍然会随着结点父结点的增多而指数型增长。解决方法是,引入规范分布(canonical distribution)来描述。下面介绍两类例子,分别用来描述确定性关系和不确定性关系。

(1)确定性结点:一个确定性结点的取值完全能够由其父结点的取值确定,没有任何不确定性。

这种关系可以是逻辑关系:例如,子结点是其全部父结点的析取NorthAmerican=Canadian\vee US\vee Mexican

也可以是数值关系:level=inflow+precipitation-outflow-evaporation

(2)噪声或关系(Noisy-OR):该模型有两个假设:(1)所有可能的原因都已列出(如果遗漏一些原因可以增加一个所谓的遗漏结点(leak node));(2)每个父结点(为真)使得子结点失败(为否)的概率是独立的。公式如下:

q_{i}=P\left \{ \neg X|\neg Y_{1},\neg Y_{2},...,Y_{i},...,\neg Y_{n} \right \}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值