深度学习中的一些概率函数分布

1. 随机变量及其分布函数

1.1 随机变量和概率分布函数的定义

随机变量是分布函数中重要的概念,它表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关系,均可以进行数量化.对于给定的随机试验, Ω \Omega Ω是其样本空间,对于 Ω \Omega Ω空间中每一个样本点 ω \omega ω,有且只有一个实数 X ( ω ) X(\omega) X(ω)与之对应,则称此定义在空间 Ω \Omega Ω的实值函数 X X X为随机变量.
X X X是一个随机变量,称定义域为 ( − ∞ , + ∞ ) (-\infty,+\infty) (,+),函数的值域在 [ 0 , 1 ] [0,1] [0,1]上的实值函数
F ( x ) = P ( X ≤ x )   ( − ∞ < x < + ∞ ) F(x)=P(X\leq x)\text{ }(-\infty<x<+\infty) F(x)=P(Xx) (<x<+)
为随机变量 X X X的分布函数.所以说,若已知 X X X的分布函数,那么就可以知道 X X X落在任意一个区间上的概率:
P { x 1 ≤ X ≤ x 2 } = P { X ≤ x 2 } − P { X ≤ x 1 } = F ( x 2 ) − F ( x 1 ) P\{x_{1}\leq X \leq x_{2}\}=P\{X \leq x_{2}\}-P\{X \leq x_{1}\}=F(x_{2})-F(x_{1}) P{ x1Xx2}=P{ Xx2}P{ Xx1}=F(x2)F(x1)
所以说,概率分布函数完整地描述了随机变量的统计规律性.

1.2 性质

具体来说,概率分布函数具有以下的基本性质:
(1) 0 ≤ F ( x ) ≤ 1   ( − ∞ < x < + ∞ ) 0\leq F(x) \leq 1 \text{ }(-\infty <x<+\infty) 0F(x)1 (<x<+)
(2) 对于任意两点 x 1 x_{1} x1 x 2 x_{2} x2,当 x 1 < x 2 x_{1}<x_{2} x1<x2的时候,有 F ( x 1 ) < F ( x 2 ) F(x_{1})<F(x_{2}) F(x1)<F(x2),即任意概率分布函数都是单调不减的函数;
(3) lim ⁡ x → − ∞ F ( x ) = 0 \lim\limits_{x \to -\infty}F(x) =0 xlimF(x)=0以及 lim ⁡ x → + ∞ F ( x ) = 1 \lim\limits_{x \to +\infty}F(x) =1 x+limF(x)=1
(4) lim ⁡ x → x 0 + F ( x 0 ) = F ( x 0 )   ( − ∞ < x < + ∞ ) \lim\limits_{x \to x_{0}^{+}}F(x_{0})=F(x_{0})\text{ }(-\infty <x<+\infty) xx0+limF(x0)=F(x0) (<x<+)即任意概率分布函数是一个右连续函数.

2. 离散型随机变量

有一些随机变量,它的可能取值是有限个或者是多个数值,这样的随机变量称为离散型随机变量,它的分布即称为离散型随机分布.

2.1 离散型随机变量分布律

一般地,通常以以下的分布律来表达离散型随机分布。
X X X是一个离散型随机变量,它可能的取值为 x 1 , x 2 , . . . , x n x_{1},x_{2},...,x_{n} x1,x2,...,xn,事件 { X = x i } \{X=x_{i}\} { X=xi}的概率为 p i   ( i = 1 , 2 , 3 , . . . , n ) p_{i}\text{ }(i = 1,2,3,...,n) pi (i=1,2,3,...,n),那么可以用下面的表格来表达 X X X取值的规律:

X X X x 1 x_{1} x1 x 2 x_{2} x2 x n x_{n} xn
概率 p 1 p_{1} p1 p 2 p_{2} p2 p n p_{n} pn

其中, 0 ≤ p i ≤ 1   ( i = 1 , 2 , . . . , n ) 0\leq p_{i} \leq 1\text{ } (i=1,2,...,n) 0pi1 (i=1,2,...,n), ∑ i p i = 1 \sum\limits_{i}p_{i}=1 ipi=1.这个表格就称为离散型随机变量 X X X的分布律。

2.2 常见的分布函数

下面将会介绍几种常见的随机变量的分布函数.

2.2.1 伯努利(Bernouli)分布

这个也称作是0-1分布,这是一个单一二元变量 x ∈ { 0 , 1 } x \in \{0,1\} x{ 0,1}的分布。它是由一个连续参数 μ ∈ { 0 , 1 } \mu \in \{0,1\} μ{ 0,1}控制,这个参数表示 x = 1 x=1 x=1的概率。具体有以下的表达式:
Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x \text{Bern}(x|\mu)=\mu^{x}(1-\mu)^{1-x} Bern(xμ)=μx(1μ)1x

E [ x ] = μ \mathbb{E}[x]=\mu E[x]=μ

var [ x ] = μ ( 1 − μ ) \text{var}[x]=\mu(1-\mu) var[x]=μ(1μ)

mode [ x ] = { 1 ,  if  μ > 0.5 0 , otherwise \text{mode}[x]=\begin{cases} 1 & , \text{ if } \mu > 0.5 \\ 0 & , \text{otherwise} \end{cases} mode[x]={ 10, if μ>0.5,otherwise

H [ x ] = − μ ln μ − ( 1 − μ ) ln ( 1 − μ ) H[x]=-\mu\text{ln}\mu-(1-\mu)\text{ln}(1-\mu) H[x]=μlnμ(1μ)ln(1μ)

2.2.2 二项分布

二项分布给出了在伯努利分布中的 N N N个样本中观察到 m m m x = 1 x=1 x=1的概率.伯努利分布中,设观测到 x = 1 x=1 x=1的概率是 μ ∈ [ 0 , 1 ] \mu \in [0,1] μ[0,1],则表达式为:
Bin ( m ∣ N , μ ) = ( N m ) μ m ( 1 − μ ) N − m \text{Bin}(m|N,\mu)=\binom{N}{m}\mu^{m}(1-\mu)^{N-m} Bin(mN,μ)=(mN)μm(1μ)Nm

E [ x ] = N μ \mathbb{E}[x]=N\mu E[x]=Nμ

var [ x ] = N μ ( 1 − μ ) \text{var}[x]=N\mu(1-\mu) var[x]=Nμ(1μ)

mode [ m ] = ⌊   ( N + 1 ) μ ⌋ \text{mode}[m]=\biggl\lfloor\ (N+1)\mu\biggr\rfloor mode[m]= (N+1)μ

其中, ⌊   ( N + 1 ) μ ⌋ \biggl\lfloor\ (N+1)\mu\biggr\rfloor  (N+1)μ表示超过 ( N + 1 ) μ (N+1)\mu (N+1)μ的最大整数.另外
( N m ) = N ! m ! ( N − m ) ! \binom{N}{m}=\frac{N!}{m!(N-m)!} (mN)=m!(Nm)!N!

二项式分布中 N = 1 N=1 N=1这一个特殊情形被称作是伯努利分布。一般地,对于大数值 N N N,二项分布近似于高斯分布。 μ \mu μ的共轭先验是 Beta \text{Beta} Beta分布。若随机变量 X X X具有二项分布,一般记为 X ∼ B ( n , μ ) X\sim B(n,\mu) XB(n,μ).

2.2.3 多项式分布

如果将伯努利分布推广到 K K K维二元变量 x \pmb x xxx,其中分量 x k ∈ 0 , 1 x_{k} \in {0,1} xk0,1并且 ∑ k x k = 1 \sum\limits_{k}x_{k}=1 kxk=1,则会有下面的离散分布
p ( x ) = ∏ k = 1 K μ k x k p(\pmb x)=\prod_{k=1}^{K}\mu_{k}^{x_{k}} p(xxx)=k=1Kμkxk

E ( x k ) = μ k \mathbb{E}(x_{k})=\mu_{k} E(xk)=μk

var [ x k ] = μ k ( 1 − μ k ) \text{var}[x_{k}]=\mu_{k}(1-\mu_{k}) var[xk]=μk(1μk)

cov [ x j x k ] = − μ j μ k , j ≠ k \text{cov}[x_{j}x_{k}]=-\mu_{j}\mu_{k},j\neq k cov[xjxk]=μjμk,j=k

H [ x ] = − ∑ k = 1 K μ k ln μ k H[\pmb x]=-\sum\limits^{K}_{k=1}\mu_{k}\text{ln}\mu_{k} H[xxx]=k=1Kμklnμk

由于 p ( μ k = 1 ) = μ k p(\mu_{k}=1)=\mu_{k} p(μk=1)=μk,因而参数必须满足下列条件: 0 ≤ μ k ≤ 1 0\leq \mu_{k} \leq 1 0μk1以及 ∑ k μ k = 1 \sum\limits_{k}\mu_{k}=1 kμk=1.
多项式分布,二项分布对于多元变量的推广中,下面表达式给出了一个具有 K K K个状态的离散变量在总计 N N N次观测中处于状态 k k k的次数 m k m_{k} mk的分布律:
Mult ( m 1 , m 2 , . . . , m K ) = ( N m 1 m 2 . . . m K ) ∏ k = 1 K μ k m k \text{Mult}(m_{1},m_{2},...,m_{K})=\binom{N}{m_{1}m_{2}...m_{K}}\prod\limits_{k=1}^{K}\mu_{k}^{m_{k}} Mult(m1,m2,...,mK)=(m1m2...mKN)k=1Kμkmk

E [ m k ] = N μ k \mathbb{E}[m_{k}]=N\mu_{k} E[mk]=Nμk

var [ m k ] = N μ k ( 1 − μ k ) \text{var}[m_{k}]=N\mu_{k}(1-\mu_{k}) var[mk]=Nμk(1μk)

cov [ m j m k ] = − N μ j μ k , j ≠ k \text{cov}[m_{j}m_{k}]=-N\mu_{j}\mu_{k},j\neq k cov[mjmk]=Nμjμk,j=k

其中 x = ( μ 1 , . . . , μ K ) T \pmb x=(\mu_{1},...,\mu_{K})^{T} xxx=(μ1,...,μK)T,并且
( N m 1 m 2 . . . m K ) = N ! m 1 ! . . . m K ! \binom{N}{m_{1}m_{2}...m_{K}}=\frac{N!}{m_{1}!...m_{K}!} (m1m2...mKN)=m1!...mK!N!

这个值给出了这样的一个结果,即把 N N N个相同的物体中的 m k m_{k} mk个放到箱子 k k k中方案总数,其中 k = 1 , . . . , K k=1,...,K k=1,...,K. μ k \mu_{k} μk给出了随机变量处于k状态的概率,因此必须满足条件 0 ≤ μ k ≤ 1 0\leq \mu_{k} \leq 1 0μk1并且 ∑ k μ k = 1 \sum\limits_{k}\mu_{k}=1 kμk=1.参数 μ k \mu_{k} μk的共轭先验是狄利克雷分布.

2.2.4 泊松分布

设随机变量 X X X的分布律为
Poisson ( x = k ∣ λ ) = λ k k ! e − λ \text{Poisson}(x=k|\lambda)=\frac{\lambda^{k}}{k!}e^{-\lambda} Poisson(x=kλ)=k!λkeλ

称随机变量 X X X服从参数为 λ \lambda λ的泊松分布,其中 λ > 0 \lambda>0 λ>0,并且记泊松分布为 X ∼ P ( λ ) X\sim P(\lambda) XP(λ).
其中,
E [ x ] = λ \mathbb{E}[x]=\lambda E[x]=λ

var [ x ] = λ \text{var}[x]=\lambda var[x]=λ
泊松分布的参数 λ \lambda λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数.

泊松分布是并不是一个缺少记忆分布函数。一般地,假设随机变量 X X X服从参数 λ \lambda λ的泊松分布,则
P { X = i + 1 } P { X = i } = e − λ λ i + 1 / ( i + 1 ) ! e − λ λ i / i ! = λ i + 1 \frac{P\{X=i+1\}}{P\{X=i\}}=\frac{e^{-\lambda}\lambda^{i+1}/(i+1)!}{e^{-\lambda}\lambda^{i}/i!}=\frac{\lambda}{i+1} P{ X=i}P{ X=i+1}=eλλi/i!eλλi+1/(i+1)!=i+1λ
即会有下的递推公式
P { X = i + 1 } = λ i + 1 P { X = i } P\{X=i+1\}=\frac{\lambda}{i+1}P\{X=i\} P{ X=i+1}=i+1λP{ X=i}

其中, P { X = 0 } = e − λ P\{X=0\}=e^{-\lambda} P{ X=0}=eλ

2.2.5 几何分布

设在独立重复试验中,事件 A A A出现的概率为 p p p,随机变量 X X X是事件 A A A首次出现时的试验次数.那么会有以下分布律
Geo ( X = n ) = q n − 1 p \text{Geo}(X=n)=q^{n-1}p Geo(X=n)=qn1p

其中 q = 1 − p q=1-p q=1p.称此分布为具有参数 p p p的集合分布,记做 X ∼ G E ( p ) X\sim GE(p) XGE(p).它的期望和方差为:
E [ x ] = 1 p \mathbb{E}[x]=\frac{1}{p} E[x]=p1
var [ x ] = 1 − p p 2 \text{var}[x]=\frac{1-p}{p^{2}} var[x]=p21p
几何分布有下面几个推广,
推广一:
在伯努利试验中,设每次试验过程中事件 A A A发生的概率为 p p p,试验进行到事件 A A A A ˉ \bar A Aˉ都出现为止,设随机变量 X X X为进行的试验次数,那么必有以下结果:
P ( x = k ) = q k − 1 p + p k − 1 q P(x=k)=q^{k-1}p+p^{k-1}q P(x=k)=qk1p+pk1q
其中, q = 1 − p , k = 2 , 3 , . . . q=1-p,k=2,3,... q=1p,k=2,3,....因此上面的表达式可以是一个分布列,并且是两个几何数列一般项的和,称 X X X服从两个事件下推广的几何分布,记做 X ∼ P G E ( 2 , p ) X\sim PGE(2,p) XPGE(2,p).有以下期望、方差表达式:
E [ x ] = 1 p q − 1 \mathbb{E}[x]=\frac{1}{pq}-1 E[x]=pq11
var [ x ] = E ( X 2 ) − ( E ( X ) ) 2 = q 2 + q 3 + p 2 + p 3 − p 2 q 2 p 2 q 2 − 1 p 2 = 1 − 3 p + p 2 + 4 p 3 − 2 p 4 p 2 q 2 \text{var}[x]= \mathbb{E}(X^{2})-(\mathbb{E}(X))^{2}\\ =\frac{q^{2}+q^{3}+p^{2}+p^{3}-p^{2}q^{2}}{p^{2}q^{2}}-\frac{1}{p^2}\\ =\frac{1-3p+p^{2}+4p^{3}-2p^{4}}{p^2q^{2}} var[x]=E(X2)(E(X))2=p2q2q2+q3+p2+p3p2q2p

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值