统计学补习系列二之正态分布的前世今生

正态分布是整个概率统计学的基石

  如t分布、F分布、分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。

 

中心极限定理(central limit theorem)是概率论中讨论随机变量序列部分和的分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。

 

  它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。最早的中心极限定理是讨论n重伯努利试验中,事件A出现的次数渐近于正态分布的问题。1716年前后,A.棣莫弗对n重伯努利试验中每次试验事件A出现的概率为1/2的情况进行了讨论,随后,P.-S.拉普拉斯和A.M.李亚普诺夫等进行了推广和改进。自P.莱维在1919~1925年系统地建立了特征函数理论起,中心极限定理的研究得到了很快的发展,先后产生了普遍极限定理和局部极限定理等。极限定理是概率论的重要内容,也是数理统计学的基石之一,其理论成果也比较完美。长期以来,对于极限定理的研究所形成的概率论分析方法,影响着概率论的发展。同时新的极限理论问题也在实际中不断产生。

 

最常用的中心极限定理 林德伯格-列维定理

  林德伯格-列维(Lindburg-Levy)定理,即独立同分布随机变量序列的中心极限定理。它表明,独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限:

 

  设随机变量X1,X2,......Xn,......相互独立,服从同一分布,且具有数学期望和方差:E(Xk)=μ,D(Xk)=σ^2>0(k=1,2....),则随机变量之和的标准化变量的分布函数Fn(x)对于任意x满足limFn(x)=Φ() 其中Φ(x)是标准正态分布的分布函数。

 

棣莫佛-拉普拉斯定理

  棣莫佛-拉普拉斯(de Movire - Laplace)定理,即服从二项分布的随机变量序列的中心极限定理。它指出,参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。

 

http://baike.baidu.com/view/45355.htm

 

两者的关系主要通过统计量的分布来反映,且因样本量的大小而有所

差别。

㈠大样本统计量的推断依据—大数定律

在重复试验中事件的频率的稳定性,是大量随机现象的统计规律性的典型表现。人们根据频率的稳定性预见到概率的存在和概率的性质;同样,在长期的统计实践中,人们也找到了大量随机现象的平均结果也具有稳定性的理论依据,即大数定律。大数定律在统计中是指一切关于大量随机现象之平均结果稳定性的定理,它包含了强大数定理和弱大数定理两类的很多条定理。如马尔可夫定理、辛钦定理、车贝雪夫定理、贝努里定理、普阿松定理等等,它们为那些均值稳定性的存在及整个推断统计提供了最基本的理论依据。大数定律的本质意义是尽管单个随机现象的具体表现不可避免地引起随机偏差,然而在大量随机现象共同作用时,由于这些随机偏差互相抵消、补偿和拉平,致使总的平均结果趋于稳定。

㈡大样本统计量分布的依据—中心极限定理

中心极限定理是指在一定的条件下,大量相互独立的随机现象的概率分布是以正态分布为极限的定理。因正态分布在概率论中占有中心地位,所以把以正态分布为极限的定理叫做中心极限定理。大数定律只揭示了大量随机变量的平均结果,但并没有涉及到随机变量的分布规律。而中心极限定理则说明了许多随机变量的分布是正态或近似正态的,这就可以简化统计推断中许多统计量的分布问题,所以它是统计学中的重要工具之一。

⒈正态分布

正态分布是指变量在其平均值附近的概率分配较多,而远离平均值的概率分配很少的最常见的分布。由于客观现象绝大多数都是呈现这种分布的,所以也叫常态分布。,其具体内容如下:

⑴正态分布模型。如果连续型随机变量X的概率密度为:

其中:σ为随机变量X的标准差;

      为随机变量X的期望值;

     e=2.71828

     π=3.1415926

则称X服从正态分布,简记作X~N(  ,σ2)

⑵正态分布的分布函数为:

可以验证:

当  =0,σ2=1时,叫标准正态分布,普通正态分布经标准化后,都可以转化为标准正

态分布,并简记作X~N(0,1)。

⑶正态分布的特征

第一,正态分布的概率密度函数曲线为一对称的钟形曲线,对称线是X=  ,标准正态分

布是关于纵轴的对称图形;

第二,概率密度曲线与X轴之间所围成的面积等于1。

第三,当X在  的附近时,正态分布的概率密度值f(X)最大;当X远离  时,f(X)的值随着

  的递增而递减。

第四,概率密度曲线的陡缓程度由σ2决定,σ2越大,曲线越平缓;σ2越小,曲线越陡

峭。

第五,当X趋于无究时,概率密度曲线以X轴为渐近线。

第六,概率密度曲线有两个曲线变点:即  -σ和  +σ,曲线在X<(  -σ)和X>(  +σ)

区间是向下凸的,在(  -σ)<X<(  +σ)区间是向上凸的。

第七,正态随机变量X的值在区间[  -σ,  +σ]内时,其概率等于68.26%;X取值区间为

[  -2σ,  +2σ]时,其概率为95.45%;X取值区间为[  -3σ,  +3σ]时,其概率为99.

73%,X的其他取值对应的概率,可在对其标准化后通过查找附录中的标准正态概率分布

表(参见附表2)求得。

⑷普通正态分布的标准化

普通随机变量及其期望值和方差都受变量的计量单位影响,这样给抽样推断及概率计算

都带来了麻烦。在概率分布中消除纲量的办法就是标准化的过程,即普通正态分布通过

线性变换,可以转化为标准正态分布,其转化(即标准化)公式为:

普通正态分布的函数要受其参数变化的影响,计算也很繁索,利用上述线性变换,可将

现实中大量的一般正态分布转换为标准正态分布。再根据标准正态概率累计分布函数表

(见附表1)进行计算。

例7.2  已知某产品的单件重量服从  =500克,σ=100克的正态分布,即X~N(500,10000

)。现查标准正态概率较小制分布函数表,求下列①~④各问的概率值:

①求随机抽取一件产品,其重量在450克以下的概率?

解:先标准化为u=(450-500)/100=-0.50

查标准正态概率较小制分布函数表,第-0.5行,第0列的交点有:Φ(-0.5)=0.3085

  即P(X≤450)=P(U≤u)=Φ(-0.5)=0.3085

②求随机抽取一件产品,其重量在478克以上的概率?

解:标准化为u=(478-500)/100=-0.22

查标准正态概率较小制分布函数表,第-0.2行,第2列的交点有:Φ(-0.22)=0.4129

即:P(X>478)=P(U>u)=1-P(U≤u)=1-Φ(-0.22)=0.5871

③求随机抽取一件产品,其重量在450克至478克之间的概率?

解:利用①和②的结果有:

P(450≤X≤478)=P(-0.5≤U≤-0.22)=0.4129-0.3085=0.1044

④设x为某重量,若使该产品重量在x以下者占75%,则该重量x值为多少?

解:∵ P(X≤x)=75%

     

查找表中Φ(u)=0.75所对应的行和列的数,在该题中0.75应是表中的第0.6行及第7和第

8列之间的数,即对第7列的0.7486和和第8列的0.7517插值0.75,求对应的插值u=0.

674,是通过下式求得的:

将标准化的变量换算为原变量有:

x=σ·u+  =100×0.674+500=567.4(克)

说明该产品的重量有75%在567.4克以下。

⒉中心极限定理

从直观上,如果一个随机变量决定于大量(乃至无穷)随机因素的总和,其中每个随机因

素的单独作用微不足道,而且各个因素的作用相对均匀,那么它就服从(或近似地服从)

正态分布,这就是中心极限定理的基本思想。由于中心极限定理的数理形式很多,这里

只就其几个基本形式作以介绍:

⑴林德柏格-列维(1886-1971)定理。若x1、x2、┅、xn是相互独立同分布的随机变量

,且它们的数学期望为E(xi)=  ,方差为D(xi)=  ,则∑x也是一个随机变量,当n很

大时,它的分布渐近服从数学期望为n  ,方差为n  的正态分布,即:

该定理说明当样本容量很大时,不论总体是什么分布,其样本平均值是正态分布的。由

此定理可得如下推论:

第一,不论总体是什么分布,只要数学期望  和方差σ2存在,从该总体中随机相互独立

地抽取容量为n的样本,则该样本的平均数也是个随机变量,当n足够大时(一般要大于30

),样本平均数近似服从数学期望为  ,方差为  /n的正态分布。即:

第二,设随机变量x1、x2、┅、xn是来自正态总体X~N(  ,  )的样本,则:

该定理和推论表明,在实际问题中,随机变量不论来自什么样分布的总体,都可用正态

分布的理论来说明和推断平均数的问题。

当然原分布与正态分布的差异越大,抽样数目就要越多,这样才能保证平均数的分布接

近正态分布。

例7.3  从某地区统计中得知,该地区平均每一家庭年收入为3160元,标准差为800元。

若从该区抽取50个家庭组成随机样本,则平均家庭年收入为①少于3000元;②多于3000

元;③在3200~3300元之间的概率分别为多少?

解:本题并未说明总体的分布,但因样本容量大于30,根据中心极限定理的推论告诉我们

,样本平均数统计量的抽样分布近似服从正态分布。即设家庭平均收入为  ,标准化后服

从标准正态分布有:

其中:  =3160;σ/  =800/  =113.14

则①当  =3000时,有u=(3000-3160)/113.14=-1.41

    ∵查正态概率较小制分布函数表有:Φ(-1.41)=0.0793

    ∴P(  <3000)=P(u<-1.41)=Φ(-1.41)=0.0793

即结果表明,样本平均家庭收入少于3000元的可能性为7.93%。

  ②∵P(  <3000)=0.0793

    ∴P(  >3000)=P(u>-1.41)=1-Φ(-1.41)=1-0.0793=0.9207

即结果表明样本平均家庭收入多于3000元的可能性为92.07%。

  ③∵P(3200≤  ≤3300)=P(  ≤3300)-P(  ≤3200)

    当  =3200时,有u=(3200-3160)/113.14=0.35

  即P(  ≤3200)=P(u≤0.35)=Φ(0.35)

    当  =3300时,有u=(3300-3160)/113.14=1.24

  即P(  ≤3300)=P(u≤1.24)=Φ(1.24)

  查正态较小制分布函数表:Φ(1.24)=0.8925;

              Φ(0.35)=0.6368

    ∴P(3200≤  ≤3300)=0.8925-0.6368=0.2557

这表明样本平均家庭收入在3200~3300元的可能性为25.57%。

⑵莫阿弗尔(法1667-1754)-拉普拉斯(1749-1827)定理。随机变量X的各单位只有两种取

值A或非A(也叫是非标志),且当X取A的概率为p、取非A的概率为q=1-p时,抽取

n个单位组成样本,则A出现的次数k组成的随机变量叫做服从二项分布的随机变量,

用符号k~B(n,p)表示。可以证明,二项分布的均值为np,方差npq。当样本容量很大时,

即n→∞时,则二项分布的随机变量k的标准化变量u服从标准正态分布。即:

例7.4  某企业有200台电话机,每台话机使用外线的概率为0.3,且每台话机的使用是相

互独立的,若X表示同时使用外线的电话机数,则其服从二项分布X~B(200,0.3)。问该企

业至少需要安装多少条外线,才能保证有90%以上的电话在使用外线时就能接通?

解: 该问题是求解最小的k值,使得P(0≤X≤k)≥0.9

    ∵X~B(200,0.3),其中:n=200,说明X为大样本。

    ∴据中心极限可知X经标准化有:

      又∵当X=0时,

          当X=k时,

          查表Φ(-9.2582)=0,则据题意有:

P(0≤X≤k)=Φ(uk)-Φ(u0)= Φ(uk)≥0.9

查标准状态概率表有uk≥1.29时,其概率大于90%,即:

解得: k≥68.36

就是说该企业要安装69条外线,才能保证有90%以上的电话使用外线时就能接通。

posted on 2011-08-23 17:43  xuq  阅读(958)  评论(0编辑  收藏  举报

导航