1 假设检验基本思想
假设检验是由K. Pearson于20世纪提出的,之后由费希尔(Fisher)进行了细化,并最终由奈曼和E. Pearson提出了较完整的假设检验理论。假设检验的基本思想是“小概率事件”原理,其统计推断方法是带有某种概率性质的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证思想是先提出检验假设,再用适当的统计方法,利用小概率原理,确定假设是否成立。即为了检验一个假设H0\mathrm{H}_0H0会否正确,首先假定该假设H0\mathrm{H}_0H0正确,然后根据样本对假设H0\mathrm{H}_0H0做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”的发生,就应该拒绝假设H0\mathrm{H}_0H0,否则不拒绝假设H0\mathrm{H}_0H0。
2 假设检验步骤
下面用一个实例引出假设检验中的一些基本概念和操作步骤。
某厂生产的合金强度服从正态分布N(θ,16)N(\theta,16)N(θ,16),其中θ\thetaθ的设计值为不低于110110110帕。为保证质量,该厂每天都要对生产情况做例行检查,以判断生产是否正常执行,即该合金的平均强度不低于110110110帕。从生产的产品中随机抽取252525块合金,测得其强度值为x1,⋯ ,x25x_1,\cdots,x_{25}x1,⋯,x25,均值为xˉ=108.2\bar{x}=108.2xˉ=108.2帕,问当日生产是否正常?
对这个实际问题可做如下分析:
(1)这不是一个参数估计问题。
(2)这是在给定总体与样本下,要求对命题“合金强度不低于110110110帕”作出回答:“是”还是“否”?这类问题称为统计假设检验问题,简称假设检验问题。
(3)命题:“合金平均强度不低于110110110帕”仅涉及参数θ\thetaθ范围,因此该命题是否正确将涉及如下两个参数集合:Θ0={θ:θ≥110},Θ1={θ:θ<110}\Theta_0=\{\theta:\theta\ge 110\},\quad\quad\quad\quad\Theta_1=\{\theta:\theta<110\}Θ0={θ:θ≥110},Θ1={θ:θ<110}命题成立对应于“θ∈Θ0\theta\in \Theta_0θ∈Θ0”,命题不成立则对应“θ∈Θ1\theta\in\Theta_1θ∈Θ1”。在统计学中这两个非空不相交参数集合都称作统计假设,简称假设。
(4)假设检验的任务是利用所给总体N(θ,16)N(\theta,16)N(θ,16)和样本均值xˉ=108.2\bar{x}=108.2xˉ=108.2帕去判断假设命题“θ∈Θ0\theta \in \Theta_0θ∈Θ0”是否成立。通过样本对一个假设做出“对”或“不对”的具体判断规则称为该假设的一个检验或检验法则。检验的结果若是肯定该命题,则称接受这个假设,否则就称为拒绝该假设。这里的“接受”或“拒绝”一个假设的行为,只是反映了当事者在给定样本之下对该命题所采取的一种态度,一种行为,而不是从逻辑上或理论上“证明”该命题正确与否。因为所采用的样本是随机的,所以所作的判断也可能是错误的。
(5)若假设可用一个参数的集合表示,该假设检验问题称为参数假设检验问题,否则称为非参数假设检验问题。
2.1 建立假设
对于参数假设检验问题,设有来自某一个参数分布族{F(x,θ)∣θ∈Θ}\{F(x,\theta)|\theta \in \Theta\}{F(x,θ)∣θ∈Θ}的样本x1,⋯ ,xnx_1,\cdots,x_nx1,⋯,xn,其中Θ\ThetaΘ为参数空间,设Θ0∈Θ\Theta_0\in \ThetaΘ0∈Θ,且Θ0≠∅\Theta_0\ne \varnothingΘ0=∅,则命题H0:θ∈Θ0\mathrm{H}_0:\theta \in \Theta_0H0:θ∈Θ0称为一个假设或原假设或零假设,若有另一个Θ1\Theta_1Θ1(Θ1⊂Θ,Θ1Θ0=∅\Theta_1 \subset \Theta,\Theta_1\Theta_0=\varnothingΘ1⊂Θ,Θ1Θ0=∅,常见的一种情况是Θ1=Θ−Θ0\Theta_1=\Theta-\Theta_0Θ1=Θ−Θ0),则命题H1:θ∈Θ1\mathrm{H}_1:\theta\in \Theta_1H1:θ∈Θ1称为H0\mathrm{H}_0H0的对立假设或备择假设,即H0:θ∈Θ0vsH1:θ∈Θ1\mathrm{H}_0:\theta\in \Theta_0\quad\quad\quad\mathrm{vs}\quad\quad\quad\mathrm{H}_1:\theta\in\Theta_1H0:θ∈Θ0vsH1:θ∈Θ1当H0:θ=θ0\mathrm{H}_0:\theta=\theta_0H0:θ=θ0时,则备择假设通常有是三种可能:H1′:θ≠θ0,H1′′:θ<θ0,H1′′′:θ>θ0\mathrm{H}_1^{\prime}:\theta\ne \theta_0,\quad \mathrm{H}_1^{\prime\prime}:\theta<\theta_0,\quad \mathrm{H}_1^{\prime\prime\prime}:\theta>\theta_0H1′:θ=θ0,H1′′:θ<θ0,H1′′′:θ>θ0则称H0 vs H1′\mathrm{H}_0\text{ }vs\text{ }\mathrm{H}_1^\primeH0 vs H1′为双侧假设或双边假设,H0 vs H1′′\mathrm{H}_0\text{ }vs\text{ }\mathrm{H}_1^{\prime\prime}H0 vs H1′′以及H0 vs H1′′′\mathrm{H}_0\text{ }vs\text{ }\mathrm{H}_1^{\prime\prime\prime}H0 vs H1′′′为单侧假设或单边假设。一般情况下,“===”需要放在原假设里。对于以上实例,可以建立如下一对假设H0:θ∈Θ={θ∣θ≥110}vsH1:θ∈Θ={θ∣θ<110}\mathrm{H}_0:\theta\in\Theta=\{\theta|\theta\ge110\}\quad \mathrm{vs}\quad \mathrm{H}_1:\theta\in\Theta=\{\theta|\theta<110\}H0:θ∈Θ={θ∣θ≥110}vsH1:θ∈Θ={θ∣θ<110}
2.2 检验统计量
当有了具体的样本后,按该法则就可以决定是接受H0\mathrm{H}_0H0还是拒绝H0\mathrm{H}_0H0,即检验就等价于把样本空间划分成两个互不相关的部分WWW和W‾\overline{W}W,当样本属于WWW时,拒绝H0\mathrm{H}_0H0;否则接受H0\mathrm{H}_0H0。于是则称WWW为该检验的拒绝域,而W‾\overline{W}W称为接受域。由样本对原假设进行检验总是通过一个统计量完成的,该统计量称为检验统计量。在以上实例中,样本均值xˉ\bar{x}xˉ就是一个检验统计量,因为要检验的假设是正态总体均值,在方差已知的场合,样本均值xˉ\bar{x}xˉ是总体均值的充分统计量。当样本均值xˉ\bar{x}xˉ越大时,意味着总体均值θ\thetaθ也越大;样本均值xˉ\bar{x}xˉ越小时,意味着总体均值θ\thetaθ也越小,所以拒绝域的形式如下所示:W={(x1,⋯ ,wn)∣xˉ≤c}W=\{(x_1,\cdots,w_n)|\bar{x}\le c\}W={(x1,⋯,wn)∣xˉ≤c}其中ccc是临界值。
2.3 选择显著性水平
由于样本是随机的,故当应用某种检验做判断时,可能做出正确的判断,也可能做出错误判断。因此,可能犯如下两种错误:当θ∈Θ0\theta\in \Theta_0θ∈Θ0时,样本由于随机性却落入了拒绝域WWW,于是采取了拒绝H0\mathrm{H}_0H0的错误决策,此时称这样的错误为第一类错误,计算公式为α=Pθ{X∈W∣H0}\alpha=P_\theta\{X\in W| \mathrm{H}_0\}α=Pθ{X∈W∣H0}当θ∈Θ1\theta\in\Theta_1θ∈Θ1时,样本却落入接受域W‾\overline{W}W,于是采取了接受H0\mathrm{H}_0H0的错误决策,此时称这样的错误为第二类错误,计算公式为β=P{X∈W‾∣H1}\beta=P\{X\in\overline{W}|\mathrm{H}_1\}β=P{X∈W∣H1}在样本量给定的条件下,α\alphaα与β\betaβ中一个减小必导致另一个增大,所以不可能找到一个使α\alphaα和β\betaβ都小的检验。另外,犯第二类错误的概率在很多情况下不易求出。由于不能同时控制一个检验的犯第一类,第二类错误的概率,在此背景下,会采取折中的方案,通常的作法是仅限制犯第一类错误的概率,这就是费希尔的显著性检验,显著性水平α\alphaα就是用来控制犯第一类错误的概率。
2.4 给出拒绝域
在确定显著性水平后,可以给出检验的拒绝域WWW。在以上实例中,对给定的显著性水平α\alphaα,则要求对于任意的θ≥110\theta \ge 110θ≥110,则有g(θ)=P(xˉ≤c)=P(xˉ−θ4/5≤c−θ4/5)=Φ(c−θ4/5)≤αg(\theta)=P(\bar{x}\le c)=P\left(\frac{\bar{x}-\theta}{4/5}\le\frac{c-\theta}{4/5}\right)=\Phi\left(\frac{c-\theta}{4/5}\right)\le\alphag(θ)=P(xˉ≤c)=P(4/5xˉ−θ≤4/5c−θ)=Φ(4/5c−θ)≤α其中xˉ∼N(θ,1625)\bar{x}\sim N(\theta,\frac{16}{25})xˉ∼N(θ,2516)于是g(θ)g(\theta)g(θ)是关于θ\thetaθ的单调递减函数,因此只需要求以下等式g(110)=Φ(5(c−110)4)=αg(110)=\Phi\left(\frac{5(c-110)}{4}\right)=\alphag(110)=Φ(45(c−110))=α用标准正态分布分位数可把上式写成5(c−110)4=uα\frac{5(c-110)}{4}=u_\alpha45(c−110)=uα,从而ccc值为c=110+0.8uαc=110+0.8 u_\alphac=110+0.8uα,检验的拒绝域为W={xˉ≤110+0.8uα}W=\{\bar{x}\le 110+0.8 u_\alpha\}W={xˉ≤110+0.8uα}若取α=0.05\alpha=0.05α=0.05,则u0.05=−u0.95u_{0.05}=-u_{0.95}u0.05=−u0.95,具体ccc值为c=110+0.8u0.05=110−0.8×1.645=108.684c=110+0.8 u_{0.05}=110-0.8\times 1.645=108.684c=110+0.8u0.05=110−0.8×1.645=108.684所以,检验的拒绝域为W={xˉ≤108.684}W=\{\bar{x}\le 108.684\}W={xˉ≤108.684}若令u=xˉ−1104/5u=\frac{\bar{x}-110}{4/5}u=4/5xˉ−110,则拒绝域另一种表示为W={u≤u0.05}={u≤−1.645}W=\{u\le u_{0.05}\}=\{u\le -1.645\}W={u≤u0.05}={u≤−1.645}
2.5 做出判断
在有了明确的拒绝域WWW后,根据样本观测值可以做出判断:
- 当u≤−1.645u\le -1.645u≤−1.645时,则拒绝H0\mathrm{H}_0H0,即接受H1\mathrm{H}_1H1
- 当u>−1.645u> -1.645u>−1.645时,则接受H0\mathrm{H}_0H0
在以上实例中,由于u=108.2−1104/5=−2.25<−1.645u=\frac{108.2-110}{4/5}=-2.25<-1.645u=4/5108.2−110=−2.25<−1.645因此拒绝原假设,即认为该日常生产不正常。
·
3 利用p值进行决策
如果原假设是正确的话,得到目前这个样本数据的可能性ppp有多大,如果这个可能性ppp小于显著性水平α\alphaα就应该拒绝原假设,即若p<αp<\alphap<α,拒绝H0\mathrm{H}_0H0。
3.1 p值检验实例
在掷骰子的试验中,掷了121212次骰子只出现了111次666点。这个现象能够说明,在5%5\%5%的显著性水平下,出现666点的概率小于16\frac{1}{6}61吗?
给出一对原假设H0\mathrm{H}_0H0和备择假设H1\mathrm{H}_1H1如下所示:H0: p=16vsH1: p<16\mathrm{H}_0: \text{ }p=\frac{1}{6}\quad\quad\quad \mathrm{vs}\quad\quad\quad\mathrm{H}_1:\text{ }p<\frac{1}{6}H0: p=61vsH1: p<61令XXX表示骰子为666点的次数,此时XXX服从二项分布B(12,16)B(12,\frac{1}{6})B(12,61),进而可知当出现666点的概率小于16\frac{1}{6}61时,可推导出P(X≤1)=P(X=0)+P(X=1)=C120(16)0(56)12+C121(16)1(56)11=0.3813>0.05\begin{aligned}P(X\le 1)&=P(X=0)+P(X=1)\\&=C_{12}^0\left(\frac{1}{6}\right)^0\left(\frac{5}{6}\right)^{12}+C_{12}^1\left(\frac{1}{6}\right)^1\left(\frac{5}{6}\right)^{11}\\&=0.3813>0.05\end{aligned}P(X≤1)=P(X=0)+P(X=1)=C120(61)0(65)12+C121(61)1(65)11=0.3813>0.05所以接受原假设, 即出现666点的概率为16\frac{1}{6}61。