一、常用公式
边缘化:
条件化:
归一化:
归一化的一般贝叶斯规则:
条件独立性(朴素贝叶斯模型):
二、贝叶斯网络(Bayesian networks)
1、定义
贝叶斯网络可以本质上表示任何完全联合概率分布。贝叶斯网络是一个有向图,每个结点都标注了定量的概率信息,定义:
1、每个结点对应一个随机变量,这个变量可以是离散的或者连续的。
2、一组有向边或箭头连接结点对。图中没有有向回路,即贝叶斯网络为有向无环图(DAG)。
3、每个结点有一个条件概率分布
量化其父结点对该结点的直接影响。
2、贝叶斯网络中联合分布公式
其中为
出现在
的父结点取值。
3、链式规则
链式规则对于任何随机变量集合都是成立的。需要满足的是,也即
是贝叶斯网络的一个拓扑排序。
在贝叶斯网络中,假设每个随机变量受到至多个其他随机变量的直接影响,则对于
个布尔随机变量的贝叶斯网络的信息量至多是
,相对于
是线性的。这比联合概率分布表示需要的信息量
(指数级)要好得多。
网络结构依赖于引入结点的次序。在每个网络中,我们都是按照从上到下的次序引入结点。
4、贝叶斯网络中的条件独立关系
定理:给定父结点后,每个变量条件独立于它的非后代结点。

定理:给定一个结点的父结点、子结点以及子结点的父结点(即给定它的马尔可夫覆盖,Markov blanket) ,则这个结点条件独立于网络中的所有其他结点。

5、紧致的条件独立分布
显然,贝叶斯网络的条件概率表(CPT)仍然会随着结点父结点的增多而指数型增长。解决方法是,引入规范分布(canonical distribution)来描述。下面介绍两类例子,分别用来描述确定性关系和不确定性关系。
(1)确定性结点:一个确定性结点的取值完全能够由其父结点的取值确定,没有任何不确定性。
这种关系可以是逻辑关系:例如,子结点是其全部父结点的析取,
也可以是数值关系:。
(2)噪声或关系(Noisy-OR):该模型有两个假设:(1)所有可能的原因都已列出(如果遗漏一些原因可以增加一个所谓的遗漏结点(leak node));(2)每个父结点(为真)使得子结点失败(为否)的概率是独立的。公式如下:
设(