一、假设检验介绍
引例:
某饮料厂在自动流水线上罐装饮料。在正常生产情形下,每瓶饮料的容量(单位:ml)X服从正态分布N(500,102)。经过一段时间之后,为了检查机器工作是否正常,抽取了9瓶样品,测得它们的平均值为490ml.试问此时自动流水线的工作是否正常?即问是否可以认为每瓶饮料的容量仍是500ml?假定标准差10ml不变。
假设检验是什么:
假设检验是统计推断的另一种重要的形式;
假设检验问题就是研究如何根据样本来检验抽样前所作出的假设;
假设检验的要素
1、假设
零假设(H0假设)
– 没有任何事情发生
备择假设(H1假设)
– 发生了某些事情
2、检验
在假定零假设H0为真的前提下,计算根据当前样本的观测结果拒绝H0的概率,即计算P(拒绝H0|H0为真)
根据计算得到的P与指定α相比较,做出接受或拒绝H0的决策。
二、小概率事件与假设检验基本原理
小概率事件、实际推断原理
把概率接近于0的事件称为小概率事件。
通常认为,小概率事件再一次试验中不应该发生,这条原则称为实际推断原理。
假设检验基本原理
在假定零假设H0为真的前提下,计算根据当前样本的观测结果拒绝H0的概率,按照实际推断原理,如果小概率事件发生了,从而认为原假设有错,因此拒绝H0。
如何判定P(拒绝H0|H0为真值)为小概率?
如果P(拒绝H0|H0为真)≤ α,其中α接近于零(通常取0.05或0.01),则认为这个小概率事件发生了,拒绝H0。
这个α被称为显著性水平。
三、假设检测的步骤
假设检验的标准步骤:
1、根据统计推断的目的而提出的对总体特征的假设
原假设与备择假设;
2、确定检验水准(显著性水平)
实际上就是确定拒绝 H0 时的所犯的错误的概率。常用的检验水准为 0.05;
3、计算统计量和 P 值
从 H0 假设的总体中抽出现有样本(及更极端情况)的概率,P 值;
检验统计量的特点:
该统计量应当服从某种已知分布,从而可以计算出 P 值;
各种检验方法利用的分布及计算原理不同,从而检测统计量也不同;
得出推断结论
按照事先确定的检验水准界定上面得到的 P 值,并按小概率原理认定对 H0 的取舍,作出推断结论:
若 P<=α:
基于 H0 假设的总体情况出现了小概率事件,则拒绝 H0,可以认为样本与总体的差别不仅仅是抽样误差造成的,可以存在本质上的差别,属于“非偶然的”,因此,可以认为两者的差别有统计学意义。
四、单个总体均值的检验(方差已知——单样本Z检验)
歌曲的时长服从正态分布X~N(μ,σ2),σ2=1;手机里有25首歌曲,这25首歌曲的平均时长是4.5分钟。
检验歌曲总体的均值是否等于4分钟。
第四步:得出推断结论
由于计算得到的P值(p-value)=0.012 < α=0.05,从而拒绝H0。
五、单个总体均值的检验(方差未知——单样本t检验)
歌曲的时长服从正态分布X~N(μ,σ2),σ2未知;手机里有25首歌曲,这25首歌曲的平均时长是4.5分钟。
标准差为1分钟。检验歌曲总体的均值是否超过了4分钟。
第四步:得出推断结论
由于计算得到的P值(p-value)=0.01 < α=0.05,从而拒绝H0
六、两个总体均值差的检验(方差未知——两个独立样本的Z检验)
25岁左右人群的月收入服从正态分布N(μ1,σ12),35岁左右人群的月收入服从正态分布N(μ2,σ22,),σ1,σ2分别为2000和8000;
记录了30名25岁和40名35岁个体的月收入。这30名25岁个体平均收入为16000元,这40名35岁个体平均收入为25000元。
第四步:得出推断结论
由于计算得到的P值(p-value)=7.92e-12< α=0.05,从而拒绝H0
七、两个总体均值差的检验(方差未知且相等——两个独立样本的t检验)
25岁左右人群的月收入服从正态分布N(μ1,σ12),35岁左右人群的月收入服从正态分布N(μ2,σ22,),σ1,σ2相等且未知;
记录了30名25岁和40名35岁个体的月收入。这30名25岁个体平均收入为16000元,标准差为2500元; 这40名35岁个体平均收入为25000元,标准差为7000元。
第四步:得出推断结论
由于计算得到的P值(p-value)=4.52e-9< α=0.05,从而拒绝H0
八、两个总体均值差的检验(方差未知且不等——两个独立样本的t检验)
25岁左右人群的月收入服从正态分布N(μ1,σ12),35岁左右人群的月收入服从正态分布N(μ2,σ22,),σ1,σ2不等且未知;
记录了30名25岁和40名35岁个体的月收入。这30名25岁个体平均收入为16000元,标准差为2500元; 这40名35岁个体平均收入为25000元,标准差为7000元。