概率统计复习——样本与抽样分布
总结自浙江大学盛骤老师等人的《概率论与数理统计》第四版
一、样本定义
定义,设 XXX 是具有分布函数 FFF 的随机变量,若 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 是具有同一分布函数 FFF 的、相互独立的随机变量,则称 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 为从分布函数 FFF 得到的容量为 nnn 的简单随机样本,简称样本,它们的观察值 x1,x2,⋯ ,xnx_1,x_2,\cdots,x_nx1,x2,⋯,xn 称为样本值,又称为 XXX 的 nnn 个独立的观察值。
由于 XiX_iXi 之间相互独立,因此 (X1,X2,⋯ ,Xn)(X_1,X_2,\cdots,X_n)(X1,X2,⋯,Xn) 的分布函数和概率密度函数分别为
F∗(x1,x2,⋯ ,xn)=∏i=1nF(xi)f∗(x1,x2,⋯ ,xn)=∏i=1nf(xi)
F^*(x_1,x_2,\cdots,x_n)=\prod_{i=1}^nF(x_i)\\
f^*(x_1,x_2,\cdots,x_n)=\prod_{i=1}^nf(x_i)
F∗(x1,x2,⋯,xn)=i=1∏nF(xi)f∗(x1,x2,⋯,xn)=i=1∏nf(xi)
二、抽样分布
对样本进行处理时,使用的往往不是样本本身,而是基于样本的不同函数,利用这些函数进行统计推断。
定义,设 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 是来自总体 XXX 的一个样本,g(X1,X2,⋯ ,Xn)g(X_1,X_2,\cdots,X_n)g(X1,X2,⋯,Xn) 是 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 的函数。若 ggg 中不包含未知参数,则称 g(X1,X2,⋯ ,Xn)g(X_1,X_2,\cdots,X_n)g(X1,X2,⋯,Xn) 是统计量。
由于 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 是随机变量,而统计量 g(X1,X2,⋯ ,Xn)g(X_1,X_2,\cdots,X_n)g(X1,X2,⋯,Xn) 是随机变量的函数,因而统计量也是一个随机变量。若 x1,x2,⋯ ,xnx_1,x_2,\cdots,x_nx1,x2,⋯,xn 是样本 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 的观测值,则 g(x1,x2,⋯ ,xn)g(x_1,x_2,\cdots,x_n)g(x1,x2,⋯,xn) 是 g(X1,X2,⋯ ,Xn)g(X_1,X_2,\cdots,X_n)g(X1,X2,⋯,Xn) 的观测值。
下面列出常用的统计量:
-
样本平均值
Xˉ=1n∑i=1nXi \bar{X}=\frac{1}{n}\sum_{i=1}^nX_i Xˉ=n1i=1∑nXi -
样本方差
S2=1n−1∑i=1n(Xi−Xˉ)2=1n−1(∑i=1nXi2−nXˉ2) S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n-1}(\sum_{i=1}^nX_i^2-n\bar{X}^2) S2=n−11i=1∑n(Xi−Xˉ)2=n−11(i=1∑nXi2−nXˉ2) -
样本标准差
S=S2 S=\sqrt{S^2} S=S2 -
样本 kkk 阶(原点)矩
Ak=1n∑i=1nXik,k=1,2,⋯ A_k=\frac{1}{n}\sum_{i=1}^nX_i^k,k=1,2,\cdots Ak=n1i=1∑nXik,k=1,2,⋯ -
样本 kkk 阶中心距
Bk=1n∑i=1n(Xi−Xˉ)k,k=2,3,⋯ B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^k,k=2,3,\cdots Bk=n1i=1∑n(Xi−Xˉ)k,k=2,3,⋯
注,在方差的计算过程中,其分母为 nnn,在样本方差的计算中,分母为 n−1n-1n−1。关于这么做的原因可以见博客 https://www.cnblogs.com/zzdbullet/p/10087196.html,描写的较为简单清晰。
定义,X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 是总体 FFF 的一个样本,用 S(x),−∞<x<∞S(x),-\infin<x<\infinS(x),−∞<x<∞ 表示 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 中不大于 xxx 的随机变量的个数。定义经验分布函数 Fn(x)F_n(x)Fn(x) 为
Fn(x)=1nS(x),−∞<x<∞ F_n(x)=\frac{1}{n}S(x),-\infin<x<\infin Fn(x)=n1S(x),−∞<x<∞
经验分布函数与总体分布函数相对应。
三、关于统计量的性质
均值:
- E(C)=CE(C)=CE(C)=C
- E(CX)=CE(X)E(CX)=CE(X)E(CX)=CE(X)
- E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y)
- 若 X,YX,YX,Y 相互独立,有 E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)
方差:
- D(C)=0D(C)=0D(C)=0
- D(CX)=C2D(X),D(X+C)=D(X)D(CX)=C^2D(X),D(X+C)=D(X)D(CX)=C2D(X),D(X+C)=D(X)
- D(X+Y)=D(X)+D(Y)+2E{ (X−E(X))(Y−E(Y)) }D(X+Y)=D(X)+D(Y)+2E\set{(X-E(X))(Y-E(Y))}D(X+Y)=D(X)+D(Y)+2E{(X−E(X))(Y−E(Y))}
- 若 X,YX,YX,Y 相互独立,则 D(X+Y)=D(X)+D(Y)D(X+Y)=D(X)+D(Y)D(X+Y)=D(X)+D(Y)
四、有关正态总体的几个常用统计量的分布
一、χ2\chi^2χ2 分布
设 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 是来自总体 N(0,1)N(0,1)N(0,1) 的样本,则称统计量
χ2=X12+X22+⋯+Xn2
\chi^2=X^2_1+X^2_2+\cdots+X^2_n
χ2=X12+X22+⋯+Xn2
服从自由度为 nnn 的 χ2\chi^2χ2 分布,记为 χ2∼χ2(n)\chi^2\sim\chi^2(n)χ2∼χ2(n)
χ2(n)\chi^2(n)χ2(n) 分布的概率密度为
f(y)={12n/2Γ(n/2)yn/2−1e−y/2,y>0,0,otherwise
f(y)=\begin{cases}
\frac{1}{2^{n/2}\Gamma(n/2)}y^{n/2-1}e^{-y/2},&y>0,\\
0,&otherwise
\end{cases}
f(y)={2n/2Γ(n/2)1yn/2−1e−y/2,0,y>0,otherwise
证明:
-
已知 X∼Φ(μ,σ2)X\sim \Phi(\mu,\sigma^2)X∼Φ(μ,σ2),则 Y=X2Y=X^2Y=X2 的分布为
fY(y)={12πy−1/2e−1/2,y>0,0,y≤0. f_Y(y)=\begin{cases} \frac{1}{\sqrt{2\pi}}y^{-1/2}e^{-1/2},&y>0,\\ 0,&y\leq 0. \end{cases} fY(y)={2π1y−1/2e−1/2,0,y>0,y≤0.即 fY(y)=Γ(12,12)f_Y(y)=\Gamma(\frac{1}{2},\frac{1}{2})fY(y)=Γ(21,21)
-
又伽马分布具有可加性,则 χ2∼Γ(n2,12)\chi^2\sim\Gamma(\frac{n}{2},\frac{1}{2})χ2∼Γ(2n,21)
性质:
-
由 Γ\GammaΓ 分布的可加性易得 χ2\chi^2χ2 分布的可加性
χ12∼χ2(n1),χ22∼χ2(n2)有χ12+χ22∼χ2(n1+n2) \chi^2_1\sim\chi^2(n_1),\chi^2_2\sim\chi^2(n_2)\\ 有 \chi^2_1+\chi^2_2\sim\chi^2(n_1+n_2) χ12∼χ2(n1),χ22∼χ2(n2)有χ12+χ22∼χ2(n1+n2) -
若 χ2∼χ2(n)\chi^2\sim\chi^2(n)χ2∼χ2(n),则 E(χ2)=n,D(χ2)=2nE(\chi^2)=n,D(\chi^2)=2nE(χ2)=n,D(χ2)=2n
二、t 分布
设 X∼N(0,1)X\sim N(0,1)X∼N(0,1),Y∼χ2(n)Y\sim\chi^2(n)Y∼χ2(n),且 X,YX,YX,Y 相互独立,称随机变量
t=XY/n
t=\frac{X}{\sqrt{Y/n}}
t=Y/nX
服从自由度为 nnn 的 ttt 分布,记为 t∼t(n)t\sim t(n)t∼t(n),其又称为学生氏分布。概率密度函数为
h(t)=Γ[(n+1)/2]πnΓ(n/2)(1+t2n)−(n+1)/2,−∞<x<∞
h(t)=\frac{\Gamma[(n+1)/2]}{\sqrt{\pi n}\Gamma(n/2)}(1+\frac{t^2}{n})^{-(n+1)/2},-\infin<x<\infin
h(t)=πnΓ(n/2)Γ[(n+1)/2](1+nt2)−(n+1)/2,−∞<x<∞
当 nnn 足够大时,ttt 近似标准正态分布。当 n>45n>45n>45 时,使用正态近似。
三、FFF 分布
设 U∼χ2(n1),V∼χ2(n2)U\sim\chi^2(n_1),V\sim\chi^2(n_2)U∼χ2(n1),V∼χ2(n2),且 U,VU,VU,V 相互独立,则称随机变量
F=U/n1V/n2
F=\frac{U/n_1}{V/n_2}
F=V/n2U/n1
为服从自由度为 (n1,n2)(n_1,n_2)(n1,n2) 的 FFF 分布,记为 F∼F(n1,n2)F\sim F(n_1,n_2)F∼F(n1,n2)。其概率密度函数为
f(x)=Γ((n1+n2)/2)(n1/n2)n1/2xn1/2−1Γ(n1/2)Γ(n2/2)[(n1/n2)x+1](n1+n2)/2x>0
f(x) = \frac{\Gamma((n_{1}+n_{2})/2)(n_{1}/n_{2})^{n_{1}/2}x^{n_{1}/2-1}}
{\Gamma(n_{1}/2)\Gamma(n_{2}/2)[(n_{1}/n_{2})x+1]^{(n_{1}+n_{2})/2}} \qquad \qquad x > 0
f(x)=Γ(n1/2)Γ(n2/2)[(n1/n2)x+1](n1+n2)/2Γ((n1+n2)/2)(n1/n2)n1/2xn1/2−1x>0
由定义可知,若 F∼F(n1,n2)F\sim F(n_1,n_2)F∼F(n1,n2),则 1F∼F(n2,n1)\frac{1}{F}\sim F(n_2,n_1)F1∼F(n2,n1)。FFF 分布的一个性质为 F1−α(n1,n2)=1Fα(n2,n1)F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}F1−α(n1,n2)=Fα(n2,n1)1,其中 FαF_\alphaFα 为 FFF 分布的 α\alphaα 分位点。
四、正态总体的样本均值与样本方差的分布
设总体的均值为 μ\muμ,方差为 σ2\sigma^2σ2,Xi,i=1,⋯ ,nX_i,i=1,\cdots,nXi,i=1,⋯,n 为 XXX 的一个样本,Xˉ,S2\bar{X},S^2Xˉ,S2 分别是样本均值和方差,则有
E(Xˉ)=μ,D(S2)=σ2n
E(\bar{X})=\mu,D(S^2)=\frac{\sigma^2}{n}
E(Xˉ)=μ,D(S2)=nσ2
进一步,假设 X∼N(μ,σ2)X\sim N(\mu,\sigma^2)X∼N(μ,σ2),则 Xˉ\bar{X}Xˉ 也满足正态分布(正态分布的可加性),得到以下定理
-
定理一,设 X1,⋯ ,XnX_1,\cdots,X_nX1,⋯,Xn 为来自正态总体 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) 的样本,Xˉ\bar{X}Xˉ 是样本均值,有
Xˉ∼N(μ,σ2/n) \bar{X}\sim N(\mu,\sigma^2/n) Xˉ∼N(μ,σ2/n) -
定理二,设 X1,⋯ ,XnX_1,\cdots,X_nX1,⋯,Xn 为来自正态总体 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) 的样本,Xˉ,S2\bar{X},S^2Xˉ,S2 分别是样本均值和方差,有
- (n−1)S2σ2∼χ2(n−1)\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)σ2(n−1)S2∼χ2(n−1)
- Xˉ\bar{X}Xˉ 和 S2S^2S2 相互独立
-
定理三
Xˉ−μS/n∼t(n−1) \frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1) S/nXˉ−μ∼t(n−1) -
定理四,设 X1,⋯ ,Xn1X_1,\cdots,X_{n_1}X1,⋯,Xn1 和 Y1,⋯ ,Yn2Y_1,\cdots,Y_{n_2}Y1,⋯,Yn2 分别是来自正态总体 N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ1,σ12) 和 N(μ2,σ22)N(\mu_2,\sigma^2_2)N(μ2,σ22) 的样本,且这两个样本相互独立。设 Xˉ,Yˉ\bar{X},\bar{Y}Xˉ,Yˉ 分别是这两个样本的均值,S12,S22S_1^2,S_2^2S12,S22 分别是这两个样本的方差。有
-
S12/S22σ12/σ22∼F(n1−1,n2−1)\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)σ12/σ22S12/S22∼F(n1−1,n2−1)
-
当 σ12=σ22=σ\sigma_1^2=\sigma_2^2=\sigmaσ12=σ22=σ 时
(Xˉ−Yˉ)−(μ1−μ2)Sw1n1+1n2∼t(n1+n2−2) \frac{(\bar{X}-\bar{Y})-\left(\mu_{1}-\mu_{2}\right)}{S_{w} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t\left(n_{1}+n_{2}-2\right) Swn11+n21(Xˉ−Yˉ)−(μ1−μ2)∼t(n1+n2−2)
其中
Sw2=(n1−1)S12+(n2−1)S22n1+n2−2,Sw=Sw2 S_{w}^{2}=\frac{\left(n_{1}-1\right) S_{1}^{2}+\left(n_{2}-1\right) S_{2}^{2}}{n_{1}+n_{2}-2}, \quad S_{w}=\sqrt{S_{w}^{2}} Sw2=n1+n2−2(n1−1)S12+(n2−1)S22,Sw=Sw2
-