深度学习中的一些概率函数分布

最新推荐文章于 2025-03-23 21:40:15 发布

原创

最新推荐文章于 2025-03-23 21:40:15 发布 · 1.9k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #统计学 #数据挖掘 #机器学习 #神经网络

概率分布函数介绍

1. 随机变量及其分布函数
- 1.1 随机变量和概率分布函数的定义
- 1.2 性质
2. 离散型随机变量
3.连续型随机变量
4. 应用
5. 小结
6. 参考文献

1. 随机变量及其分布函数

1.1 随机变量和概率分布函数的定义

随机变量是分布函数中重要的概念，它表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关系，均可以进行数量化.对于给定的随机试验， $\Omega$ 是其样本空间，对于 $\Omega$ 空间中每一个样本点 $\omega$ ，有且只有一个实数 $X(\omega)$ 与之对应，则称此定义在空间 $\Omega$ 的实值函数 $X$ 为随机变量.
设 $X$ 是一个随机变量，称定义域为 $(-\infty,+\infty)$ ，函数的值域在 $[0, 1]$ 上的实值函数
$F(x)=P(X\leq x)\text{ }(-\infty<x<+\infty)$
为随机变量 $X$ 的分布函数.所以说，若已知 $X$ 的分布函数，那么就可以知道 $X$ 落在任意一个区间上的概率：
$P\{x_{1}\leq X \leq x_{2}\}=P\{X \leq x_{2}\}-P\{X \leq x_{1}\}=F(x_{2})-F(x_{1})$
所以说，概率分布函数完整地描述了随机变量的统计规律性.

1.2 性质

具体来说，概率分布函数具有以下的基本性质：
(1) $0\leq F(x) \leq 1 \text{ }(-\infty <x<+\infty)$ ；
(2) 对于任意两点 $x_{1}$ 和 $x_{2}$ ，当 $x_{1}<x_{2}$ 的时候，有 $F(x_{1})<F(x_{2})$ ，即任意概率分布函数都是单调不减的函数；
(3) $\lim\limits_{x \to -\infty}F(x) =0$ 以及 $\lim\limits_{x \to +\infty}F(x) =1$ ；
(4) $\lim\limits_{x \to x_{0}^{+}}F(x_{0})=F(x_{0})\text{ }(-\infty <x<+\infty)$ 即任意概率分布函数是一个右连续函数.

2. 离散型随机变量

有一些随机变量，它的可能取值是有限个或者是多个数值，这样的随机变量称为离散型随机变量，它的分布即称为离散型随机分布.

2.1 离散型随机变量分布律

一般地，通常以以下的分布律来表达离散型随机分布。
设 $X$ 是一个离散型随机变量，它可能的取值为 $x_{1},x_{2},...,x_{n}$ ，事件 ${X=x_{i}\}$ 的概率为 $p_{i}\text{ }(i = 1,2,3,...,n)$ ，那么可以用下面的表格来表达 $X$ 取值的规律：

$X$	$x_{1}$	$x_{2}$	…	$x_{n}$
概率	$p_{1}$	$p_{2}$	…	$p_{n}$

其中, $0\leq p_{i} \leq 1\text{ } (i=1,2,...,n)$ , $\sum\limits_{i}p_{i}=1$ .这个表格就称为离散型随机变量 $X$ 的分布律。

2.2 常见的分布函数

下面将会介绍几种常见的随机变量的分布函数.

2.2.1 伯努利(Bernouli)分布

这个也称作是0-1分布，这是一个单一二元变量 $\in \{0,1\}$ 的分布。它是由一个连续参数 $\mu \in \{0,1\}$ 控制，这个参数表示 $x = 1$ 的概率。具体有以下的表达式：
$\text{Bern}(x|\mu)=\mu^{x}(1-\mu)^{1-x}$

$\mathbb{E}[x]=\mu$

$\text{var}[x]=\mu(1-\mu)$

$\text{mode}[x]=\begin{cases} 1 & , \text{ if } \mu > 0.5 \\ 0 & , \text{otherwise} \end{cases}$

$H[x]=-\mu\text{ln}\mu-(1-\mu)\text{ln}(1-\mu)$

2.2.2 二项分布

二项分布给出了在伯努利分布中的 $N$ 个样本中观察到 $m$ 次 $x = 1$ 的概率.伯努利分布中，设观测到 $x = 1$ 的概率是 $\mu \in [0,1]$ ，则表达式为：
$\text{Bin}(m|N,\mu)=\binom{N}{m}\mu^{m}(1-\mu)^{N-m}$

$\mathbb{E}[x]=N\mu$

$\text{var}[x]=N\mu(1-\mu)$

$\text{mode}[m]=\biggl\lfloor\ (N+1)\mu\biggr\rfloor$

其中， $\biggl\lfloor\ (N+1)\mu\biggr\rfloor$ 表示超过 $(N+1)\mu$ 的最大整数.另外
$\binom{N}{m}=\frac{N!}{m!(N-m)!}$

二项式分布中 $N = 1$ 这一个特殊情形被称作是伯努利分布。一般地，对于大数值 $N$ ，二项分布近似于高斯分布。 $\mu$ 的共轭先验是 $\text{Beta}$ 分布。若随机变量 $X$ 具有二项分布，一般记为 $X\sim B(n,\mu)$ .

2.2.3 多项式分布

如果将伯努利分布推广到 $K$ 维二元变量 $\pmb x$ ，其中分量 $x_{k} \in {0,1}$ 并且 $\sum\limits_{k}x_{k}=1$ ，则会有下面的离散分布
$p(\pmb x)=\prod_{k=1}^{K}\mu_{k}^{x_{k}}$

$\mathbb{E}(x_{k})=\mu_{k}$

$\text{var}[x_{k}]=\mu_{k}(1-\mu_{k})$

$\text{cov}[x_{j}x_{k}]=-\mu_{j}\mu_{k},j\neq k$

$H[\pmb x]=-\sum\limits^{K}_{k=1}\mu_{k}\text{ln}\mu_{k}$

由于 $p(\mu_{k}=1)=\mu_{k}$ ，因而参数必须满足下列条件： $0\leq \mu_{k} \leq 1$ 以及 $\sum\limits_{k}\mu_{k}=1$ .
多项式分布，二项分布对于多元变量的推广中，下面表达式给出了一个具有 $K$ 个状态的离散变量在总计 $N$ 次观测中处于状态 $k$ 的次数 $m_{k}$ 的分布律：
$\text{Mult}(m_{1},m_{2},...,m_{K})=\binom{N}{m_{1}m_{2}...m_{K}}\prod\limits_{k=1}^{K}\mu_{k}^{m_{k}}$

$\mathbb{E}[m_{k}]=N\mu_{k}$

$\text{var}[m_{k}]=N\mu_{k}(1-\mu_{k})$

$\text{cov}[m_{j}m_{k}]=-N\mu_{j}\mu_{k},j\neq k$

其中 $\pmb x=(\mu_{1},...,\mu_{K})^{T}$ ，并且
$\binom{N}{m_{1}m_{2}...m_{K}}=\frac{N!}{m_{1}!...m_{K}!}$

这个值给出了这样的一个结果，即把 $N$ 个相同的物体中的 $m_{k}$ 个放到箱子 $k$ 中方案总数，其中 $k = 1, . . ., K$ . $\mu_{k}$ 给出了随机变量处于k状态的概率，因此必须满足条件 $0\leq \mu_{k} \leq 1$ 并且 $\sum\limits_{k}\mu_{k}=1$ .参数 $\mu_{k}$ 的共轭先验是狄利克雷分布.

2.2.4 泊松分布

设随机变量 $X$ 的分布律为
$\text{Poisson}(x=k|\lambda)=\frac{\lambda^{k}}{k!}e^{-\lambda}$

称随机变量 $X$ 服从参数为 $\lambda$ 的泊松分布，其中 $\lambda>0$ ，并且记泊松分布为 $X\sim P(\lambda)$ .
其中，
$\mathbb{E}[x]=\lambda$

$\text{var}[x]=\lambda$
泊松分布的参数 $\lambda$ 是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数.

泊松分布是并不是一个缺少记忆分布函数。一般地，假设随机变量 $X$ 服从参数 $\lambda$ 的泊松分布，则
$\frac{P\{X=i+1\}}{P\{X=i\}}=\frac{e^{-\lambda}\lambda^{i+1}/(i+1)!}{e^{-\lambda}\lambda^{i}/i!}=\frac{\lambda}{i+1}$
即会有下的递推公式
$P\{X=i+1\}=\frac{\lambda}{i+1}P\{X=i\}$

其中， $P\{X=0\}=e^{-\lambda}$ 。

2.2.5 几何分布

设在独立重复试验中，事件 $A$ 出现的概率为 $p$ ，随机变量 $X$ 是事件 $A$ 首次出现时的试验次数.那么会有以下分布律
$\text{Geo}(X=n)=q^{n-1}p$

其中 $q = 1 - p$ .称此分布为具有参数 $p$ 的集合分布，记做 $X\sim GE(p)$ .它的期望和方差为：
$\mathbb{E}[x]=\frac{1}{p}$
$\text{var}[x]=\frac{1-p}{p^{2}}$
几何分布有下面几个推广，
推广一：
在伯努利试验中，设每次试验过程中事件 $A$ 发生的概率为 $p$ ，试验进行到事件 $A$ 和 $\bar A$ 都出现为止，设随机变量 $X$ 为进行的试验次数，那么必有以下结果：
$P(x=k)=q^{k-1}p+p^{k-1}q$
其中， $q = 1 - p, k = 2, 3, . . .$ .因此上面的表达式可以是一个分布列，并且是两个几何数列一般项的和，称 $X$ 服从两个事件下推广的几何分布，记做 $X\sim PGE(2,p)$ .有以下期望、方差表达式：
$\mathbb{E}[x]=\frac{1}{pq}-1$
$\text{var}[x]= \mathbb{E}(X^{2})-(\mathbb{E}(X))^{2}\\ =\frac{q^{2}+q^{3}+p^{2}+p^{3}-p^{2}q^{2}}{p^{2}q^{2}}-\frac{1}{p^2}\\ =\frac{1-3p+p^{2}+4p^{3}-2p^{4}}{p^2q^{2}}$