本篇着重谈一下正态分布的各种计算。
对于连续数据分布来说,给出的都是概率密度函数,要想计算概率,就要用到积分。
假设一个随机变量服从正态分布N(μ,σ^2)分布,求a<X≤b的概率P。于是有
其中-∞<a<X≤b<∞。
在μ和σ未知时,可以用样本的
和S来代替。
大家看到这个公式是不是头疼了?我相信很多人不会做微积分了,其实我也不会了。不过也不用怕,统计学家们为了让使用者更方便计算,想了各种各样的办法。这些办法从两个方面入手,一是简化计算,找出了很多近似算法,可以用简单的加减乘除就可以,比如控制图中的XBar-R图,上一个单元提到的用于MSA计算的XBar-R法等等;二是自己做大量的计算,并将结果编成各种各样的表格,需要的时候查表就行,非常方便,这种方法直到现在还在广泛运用,所以现在的教科书中都会附上这些表格。想想100多年前没有计算机的辅助,这些前辈们手工计算出这些表格所付出的艰辛努力的确值得我们由衷地钦佩。
下面分几种情况来介绍正态分布的概率计算。
一、已知x,求概率
虽然现在有各种各样的软件可以帮助我们计算概率,但是为了加深理解,本文还是采用最原始的查表法。感谢前人的辛勤努力,使人们在应用统计方法时节省了大量的运算。
几乎在所有的软件中,包括查表时,概率的计算都是左侧概率,即从-∞积分到a或b,因此右侧的概率需要先算出左侧的概率,然后用1减去这个值。
在查表之前要先将分布标准化,即将分布变换成均值为0,标准差为1的标准正态分布N(0,1)。变换的方法是
这就是所谓的z变换。你想的没错,就是六西格玛中的Z值。它的好处在于将变量标准化了,并且去掉了量纲,