概率分布函数介绍
- 1. 随机变量及其分布函数
- 2. 离散型随机变量
- 3.连续型随机变量
-
- 3.1 概率密度函数及性质
- 3.2 常见的概率分布函数
-
- 3.2.1 均匀(Uniform)分布
- 3.2.2 指数分布
- 3.2.3 韦布尔(Weibull)分布
- 3.2.4 瑞利(Rayleigh)分布
- 3.2.5 正态(Gaussian)分布
- 3.2.6 对数(ln)正态分布
- 3.2.7 Beta分布
- 3.2.8 Gamma分布
- 3.2.9 柯西分布
- 3.2.10 狄利克雷(Dirichlet)分布
- 3.2.11 Gaussian-Gamma分布
- 3.2.12 Gaussian-Wishart分布
- 3.2.13 Von Mises分布
- 3.2.14 Wishart分布
- 3.2.15 Student't分布
- 3.2.16 ζ ( Z i p f ) 分 布 \zeta(Zipf)分布 ζ(Zipf)分布
- 4. 应用
- 5. 小结
- 6. 参考文献
1. 随机变量及其分布函数
1.1 随机变量和概率分布函数的定义
随机变量是分布函数中重要的概念,它表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关系,均可以进行数量化.对于给定的随机试验, Ω \Omega Ω是其样本空间,对于 Ω \Omega Ω空间中每一个样本点 ω \omega ω,有且只有一个实数 X ( ω ) X(\omega) X(ω)与之对应,则称此定义在空间 Ω \Omega Ω的实值函数 X X X为随机变量.
设 X X X是一个随机变量,称定义域为 ( − ∞ , + ∞ ) (-\infty,+\infty) (−∞,+∞),函数的值域在 [ 0 , 1 ] [0,1] [0,1]上的实值函数
F ( x ) = P ( X ≤ x ) ( − ∞ < x < + ∞ ) F(x)=P(X\leq x)\text{ }(-\infty<x<+\infty) F(x)=P(X≤x) (−∞<x<+∞)
为随机变量 X X X的分布函数.所以说,若已知 X X X的分布函数,那么就可以知道 X X X落在任意一个区间上的概率:
P { x 1 ≤ X ≤ x 2 } = P { X ≤ x 2 } − P { X ≤ x 1 } = F ( x 2 ) − F ( x 1 ) P\{x_{1}\leq X \leq x_{2}\}=P\{X \leq x_{2}\}-P\{X \leq x_{1}\}=F(x_{2})-F(x_{1}) P{
x1≤X≤x2}=P{
X≤x2}−P{
X≤x1}=F(x2)−F(x1)
所以说,概率分布函数完整地描述了随机变量的统计规律性.
1.2 性质
具体来说,概率分布函数具有以下的基本性质:
(1) 0 ≤ F ( x ) ≤ 1 ( − ∞ < x < + ∞ ) 0\leq F(x) \leq 1 \text{ }(-\infty <x<+\infty) 0≤F(x)≤1 (−∞<x<+∞);
(2) 对于任意两点 x 1 x_{1} x1和 x 2 x_{2} x2,当 x 1 < x 2 x_{1}<x_{2} x1<x2的时候,有 F ( x 1 ) < F ( x 2 ) F(x_{1})<F(x_{2}) F(x1)<F(x2),即任意概率分布函数都是单调不减的函数;
(3) lim x → − ∞ F ( x ) = 0 \lim\limits_{x \to -\infty}F(x) =0 x→−∞limF(x)=0以及 lim x → + ∞ F ( x ) = 1 \lim\limits_{x \to +\infty}F(x) =1 x→+∞limF(x)=1;
(4) lim x → x 0 + F ( x 0 ) = F ( x 0 ) ( − ∞ < x < + ∞ ) \lim\limits_{x \to x_{0}^{+}}F(x_{0})=F(x_{0})\text{ }(-\infty <x<+\infty) x→x0+limF(x0)=F(x0) (−∞<x<+∞)即任意概率分布函数是一个右连续函数.
2. 离散型随机变量
有一些随机变量,它的可能取值是有限个或者是多个数值,这样的随机变量称为离散型随机变量,它的分布即称为离散型随机分布.
2.1 离散型随机变量分布律
一般地,通常以以下的分布律来表达离散型随机分布。
设 X X X是一个离散型随机变量,它可能的取值为 x 1 , x 2 , . . . , x n x_{1},x_{2},...,x_{n} x1,x2,...,xn,事件 { X = x i } \{X=x_{i}\} {
X=xi}的概率为 p i ( i = 1 , 2 , 3 , . . . , n ) p_{i}\text{ }(i = 1,2,3,...,n) pi (i=1,2,3,...,n),那么可以用下面的表格来表达 X X X取值的规律:
X X X | x 1 x_{1} x1 | x 2 x_{2} x2 | … | x n x_{n} xn |
---|---|---|---|---|
概率 | p 1 p_{1} p1 | p 2 p_{2} p2 | … | p n p_{n} pn |
其中, 0 ≤ p i ≤ 1 ( i = 1 , 2 , . . . , n ) 0\leq p_{i} \leq 1\text{ } (i=1,2,...,n) 0≤pi≤1 (i=1,2,...,n), ∑ i p i = 1 \sum\limits_{i}p_{i}=1 i∑pi=1.这个表格就称为离散型随机变量 X X X的分布律。
2.2 常见的分布函数
下面将会介绍几种常见的随机变量的分布函数.
2.2.1 伯努利(Bernouli)分布
这个也称作是0-1分布,这是一个单一二元变量 x ∈ { 0 , 1 } x \in \{0,1\} x∈{
0,1}的分布。它是由一个连续参数 μ ∈ { 0 , 1 } \mu \in \{0,1\} μ∈{
0,1}控制,这个参数表示 x = 1 x=1 x=1的概率。具体有以下的表达式:
Bern ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x \text{Bern}(x|\mu)=\mu^{x}(1-\mu)^{1-x} Bern(x∣μ)=μx(1−μ)1−x
E [ x ] = μ \mathbb{E}[x]=\mu E[x]=μ
var [ x ] = μ ( 1 − μ ) \text{var}[x]=\mu(1-\mu) var[x]=μ(1−μ)
mode [ x ] = { 1 , if μ > 0.5 0 , otherwise \text{mode}[x]=\begin{cases} 1 & , \text{ if } \mu > 0.5 \\ 0 & , \text{otherwise} \end{cases} mode[x]={ 10, if μ>0.5,otherwise
H [ x ] = − μ ln μ − ( 1 − μ ) ln ( 1 − μ ) H[x]=-\mu\text{ln}\mu-(1-\mu)\text{ln}(1-\mu) H[x]=−μlnμ−(1−μ)ln(1−μ)
2.2.2 二项分布
二项分布给出了在伯努利分布中的 N N N个样本中观察到 m m m次 x = 1 x=1 x=1的概率.伯努利分布中,设观测到 x = 1 x=1 x=1的概率是 μ ∈ [ 0 , 1 ] \mu \in [0,1] μ∈[0,1],则表达式为:
Bin ( m ∣ N , μ ) = ( N m ) μ m ( 1 − μ ) N − m \text{Bin}(m|N,\mu)=\binom{N}{m}\mu^{m}(1-\mu)^{N-m} Bin(m∣N,μ)=(mN)μm(1−μ)N−m
E [ x ] = N μ \mathbb{E}[x]=N\mu E[x]=Nμ
var [ x ] = N μ ( 1 − μ ) \text{var}[x]=N\mu(1-\mu) var[x]=Nμ(1−μ)
mode [ m ] = ⌊ ( N + 1 ) μ ⌋ \text{mode}[m]=\biggl\lfloor\ (N+1)\mu\biggr\rfloor mode[m]=⌊ (N+1)μ⌋
其中, ⌊ ( N + 1 ) μ ⌋ \biggl\lfloor\ (N+1)\mu\biggr\rfloor ⌊ (N+1)μ⌋表示超过 ( N + 1 ) μ (N+1)\mu (N+1)μ的最大整数.另外
( N m ) = N ! m ! ( N − m ) ! \binom{N}{m}=\frac{N!}{m!(N-m)!} (mN)=m!(N−m)!N!
二项式分布中 N = 1 N=1 N=1这一个特殊情形被称作是伯努利分布。一般地,对于大数值 N N N,二项分布近似于高斯分布。 μ \mu μ的共轭先验是 Beta \text{Beta} Beta分布。若随机变量 X X X具有二项分布,一般记为 X ∼ B ( n , μ ) X\sim B(n,\mu) X∼B(n,μ).
2.2.3 多项式分布
如果将伯努利分布推广到 K K K维二元变量 x \pmb x xxx,其中分量 x k ∈ 0 , 1 x_{k} \in {0,1} xk∈0,1并且 ∑ k x k = 1 \sum\limits_{k}x_{k}=1 k∑xk=1,则会有下面的离散分布
p ( x ) = ∏ k = 1 K μ k x k p(\pmb x)=\prod_{k=1}^{K}\mu_{k}^{x_{k}} p(xxx)=k=1∏Kμkxk
E ( x k ) = μ k \mathbb{E}(x_{k})=\mu_{k} E(xk)=μk
var [ x k ] = μ k ( 1 − μ k ) \text{var}[x_{k}]=\mu_{k}(1-\mu_{k}) var[xk]=μk(1−μk)
cov [ x j x k ] = − μ j μ k , j ≠ k \text{cov}[x_{j}x_{k}]=-\mu_{j}\mu_{k},j\neq k cov[xjxk]=−μjμk,j=k
H [ x ] = − ∑ k = 1 K μ k ln μ k H[\pmb x]=-\sum\limits^{K}_{k=1}\mu_{k}\text{ln}\mu_{k} H[xxx]=−k=1∑Kμklnμk
由于 p ( μ k = 1 ) = μ k p(\mu_{k}=1)=\mu_{k} p(μk=1)=μk,因而参数必须满足下列条件: 0 ≤ μ k ≤ 1 0\leq \mu_{k} \leq 1 0≤μk≤1以及 ∑ k μ k = 1 \sum\limits_{k}\mu_{k}=1 k∑μk=1.
多项式分布,二项分布对于多元变量的推广中,下面表达式给出了一个具有 K K K个状态的离散变量在总计 N N N次观测中处于状态 k k k的次数 m k m_{k} mk的分布律:
Mult ( m 1 , m 2 , . . . , m K ) = ( N m 1 m 2 . . . m K ) ∏ k = 1 K μ k m k \text{Mult}(m_{1},m_{2},...,m_{K})=\binom{N}{m_{1}m_{2}...m_{K}}\prod\limits_{k=1}^{K}\mu_{k}^{m_{k}} Mult(m1,m2,...,mK)=(m1m2...mKN)k=1∏Kμkmk
E [ m k ] = N μ k \mathbb{E}[m_{k}]=N\mu_{k} E[mk]=Nμk
var [ m k ] = N μ k ( 1 − μ k ) \text{var}[m_{k}]=N\mu_{k}(1-\mu_{k}) var[mk]=Nμk(1−μk)
cov [ m j m k ] = − N μ j μ k , j ≠ k \text{cov}[m_{j}m_{k}]=-N\mu_{j}\mu_{k},j\neq k cov[mjmk]=−Nμjμk,j=k
其中 x = ( μ 1 , . . . , μ K ) T \pmb x=(\mu_{1},...,\mu_{K})^{T} xxx=(μ1,...,μK)T,并且
( N m 1 m 2 . . . m K ) = N ! m 1 ! . . . m K ! \binom{N}{m_{1}m_{2}...m_{K}}=\frac{N!}{m_{1}!...m_{K}!} (m1m2...mKN)=m1!...mK!N!
这个值给出了这样的一个结果,即把 N N N个相同的物体中的 m k m_{k} mk个放到箱子 k k k中方案总数,其中 k = 1 , . . . , K k=1,...,K k=1,...,K. μ k \mu_{k} μk给出了随机变量处于k状态的概率,因此必须满足条件 0 ≤ μ k ≤ 1 0\leq \mu_{k} \leq 1 0≤μk≤1并且 ∑ k μ k = 1 \sum\limits_{k}\mu_{k}=1 k∑μk=1.参数 μ k \mu_{k} μk的共轭先验是狄利克雷分布.
2.2.4 泊松分布
设随机变量 X X X的分布律为
Poisson ( x = k ∣ λ ) = λ k k ! e − λ \text{Poisson}(x=k|\lambda)=\frac{\lambda^{k}}{k!}e^{-\lambda} Poisson(x=k∣λ)=k!λke−λ
称随机变量 X X X服从参数为 λ \lambda λ的泊松分布,其中 λ > 0 \lambda>0 λ>0,并且记泊松分布为 X ∼ P ( λ ) X\sim P(\lambda) X∼P(λ).
其中,
E [ x ] = λ \mathbb{E}[x]=\lambda E[x]=λ
var [ x ] = λ \text{var}[x]=\lambda var[x]=λ
泊松分布的参数 λ \lambda λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数.
泊松分布是并不是一个缺少记忆分布函数。一般地,假设随机变量 X X X服从参数 λ \lambda λ的泊松分布,则
P { X = i + 1 } P { X = i } = e − λ λ i + 1 / ( i + 1 ) ! e − λ λ i / i ! = λ i + 1 \frac{P\{X=i+1\}}{P\{X=i\}}=\frac{e^{-\lambda}\lambda^{i+1}/(i+1)!}{e^{-\lambda}\lambda^{i}/i!}=\frac{\lambda}{i+1} P{
X=i}P{
X=i+1}=e−λλi/i!e−λλi+1/(i+1)!=i+1λ
即会有下的递推公式
P { X = i + 1 } = λ i + 1 P { X = i } P\{X=i+1\}=\frac{\lambda}{i+1}P\{X=i\} P{
X=i+1}=i+1λP{
X=i}
其中, P { X = 0 } = e − λ P\{X=0\}=e^{-\lambda} P{ X=0}=e−λ。
2.2.5 几何分布
设在独立重复试验中,事件 A A A出现的概率为 p p p,随机变量 X X X是事件 A A A首次出现时的试验次数.那么会有以下分布律
Geo ( X = n ) = q n − 1 p \text{Geo}(X=n)=q^{n-1}p Geo(X=n)=qn−1p
其中 q = 1 − p q=1-p q=1−p.称此分布为具有参数 p p p的集合分布,记做 X ∼ G E ( p ) X\sim GE(p) X∼GE(p).它的期望和方差为:
E [ x ] = 1 p \mathbb{E}[x]=\frac{1}{p} E[x]=p1
var [ x ] = 1 − p p 2 \text{var}[x]=\frac{1-p}{p^{2}} var[x]=p21−p
几何分布有下面几个推广,
推广一:
在伯努利试验中,设每次试验过程中事件 A A A发生的概率为 p p p,试验进行到事件 A A A和 A ˉ \bar A Aˉ都出现为止,设随机变量 X X X为进行的试验次数,那么必有以下结果:
P ( x = k ) = q k − 1 p + p k − 1 q P(x=k)=q^{k-1}p+p^{k-1}q P(x=k)=qk−1p+pk−1q
其中, q = 1 − p , k = 2 , 3 , . . . q=1-p,k=2,3,... q=1−p,k=2,3,....因此上面的表达式可以是一个分布列,并且是两个几何数列一般项的和,称 X X X服从两个事件下推广的几何分布,记做 X ∼ P G E ( 2 , p ) X\sim PGE(2,p) X∼PGE(2,p).有以下期望、方差表达式:
E [ x ] = 1 p q − 1 \mathbb{E}[x]=\frac{1}{pq}-1 E[x]=pq1−1
var [ x ] = E ( X 2 ) − ( E ( X ) ) 2 = q 2 + q 3 + p 2 + p 3 − p 2 q 2 p 2 q 2 − 1 p 2 = 1 − 3 p + p 2 + 4 p 3 − 2 p 4 p 2 q 2 \text{var}[x]= \mathbb{E}(X^{2})-(\mathbb{E}(X))^{2}\\ =\frac{q^{2}+q^{3}+p^{2}+p^{3}-p^{2}q^{2}}{p^{2}q^{2}}-\frac{1}{p^2}\\ =\frac{1-3p+p^{2}+4p^{3}-2p^{4}}{p^2q^{2}} var[x]=E(X2)−(E(X))2=p2q2q2+q3+p2+p3−p2q2−p