Begtostudy(白途思)'s Professional Technology Blog

欢迎访问begtostudy的专业知识博客!主要是专业技术和算法为主。
  首页  :: 联系 :: 订阅 订阅  :: 管理

第六章 样本与抽样分布

Posted on 2011-03-16 16:07  白途思  阅读(1229)  评论(0编辑  收藏  举报

§6.1 数理统计的基本概念

一.数理统计研究的对象

例:有一批灯泡,要从使用寿命这个数量指标来看其质量,设寿命用X表示。

(1)若规定寿命低于1000小时的产品为次品。此问题是求P(X£1000)=F(10000),F()?

(2)从平均寿命、使用时数长短差异来看其质量,即求E()?D()?

 

要解决二个问题

1.试验设计抽样方法。

2.数据处理或统计推断。

方法具有"从局部推断总体"的特点。

 

二.总体(母体)和个体

1.所研究对象的全体称为总体,把组成总体的每一个对象成员(基本单元)称为个体。

说明:

  1. 对总体我们关心的是研究对象的某一项或某几项数量指标(或属性指标)以及他们在整体中的分布。所以总体是个体的数量指标的全体。

 

(2)为研究方便将总体与一个R.V X对应(等同)

  1. 总体中不同的数量指标的全体,即是R.V.X的全部取值。
  2. R.V X的分布即是总体的分布情况。

 

例:一批产品是100个灯泡,经测试其寿命是:

1000小时 1100小时 1200小时

20 30 50

 

X 1000 1100 1200

P 20/100 30/100 50/100

(X表示灯泡的寿命)可知R.V.X的分布律,

就是总体寿命的分布,反之亦然。

 

常称总体X,若R.VXF(),有时也用F()表示一个总体。

 

(3)我们对每一个研究对象可能要观测两个或多个数量指标,则可用多维随机向量(X,Y,Z, …)去描述总体。

 

2.总体的分类

有限总体

无限总体

 

三.简单随机样本.

 

1.定义6.1 :从总体中抽得的一部分个体组成的集合称为子样(样本),取得的个体叫样品,样本中样品的个数称为样本容量(也叫样本量)。每个样品的测试值叫观察值。

 

取得子样的过程叫抽样。

 

样本的双重含义:

(1)随机性:

(XX,……X) n维随机向量表示。

X表示第i个被抽到的个体,是随机变量。(i=1,2,n

 

 

(2)确定性:

(,,……)表示n个实数,即是每个样品X观测值(i=1,2,n)

 

2.定义6.2 设总体为X,若X,X……X相互独立且与X同分布,则称(X,XX)为来自总体X的容量为n的简单随机样本(简称样本)。

 

3.已知总体的分布写出子样的分布

 

(1)已知总体XF(),则样品XF() i=1,2n样本(X,XX)的联合分布为:

F(,)=P(X,XX)

=P(X)

=F()

若总体Xf(),样品Xf() i=1,2……n

样本(X,X……X)的联合密度是

f(,……)=f()

 

例:总体XN(,写出该总体样本(X,XX)的 联合密度。

 

 

(2)若总体X是离散型随机变量,一般给出分布律:

P(X=k) = pk. k=1,2……

要写出概率函数f()f()=P(X=k)= =1,2…..,

 

例: 总体Xp(l)写出该总体样本(X1,X2,…Xn)的联合概率函数

 

例:总体XB(1,p) 0<p<1写出其样本

X,X,……X)的联合概率函数。

 

 

经验分布函数与直方图

1.样本的经验分布函数

(1)定义:设(1, 2,…n)是来自总体X的一组样本值。将它们按由小到大排序为:

1*£2*££i*££n* 对任意的实数

定义函数:

Fn* (x)=

则称F()为总体X的经验分布函数。

 

 

 

  1. 格列文科定理:

设总体X的分布函数、经验分布函数分别为F()Fn*(),则有:

 

P=1

 

上式表明,当 ,概率为1的有F均匀地趋于F()

 

2总体的概率密度的估计¾直方图

 

(第一版) [p143 6.3]

可以用SAS下的interactive data analysis 模块演示。

 

 

 

统计量与样本的数字特征

 

1 定义6.3: X1,X2,…,Xn是来自总体X的容量为n的样本,g(1, 2,…, n)是定义在RnRn子集上的普通函数。如果g中不含有任何未知量,则称g(X1,X2,…,Xn)为统计量。

 

2.常用的统计量(样本的数字特征)

 

定义6.4:设X1,X2,…,Xn是来自总体X的样本,则称

为样本均值 为样本方差

为样本k阶原点矩

为样本k阶中心矩

3.重要性质

定理6.1:设总体X不论服从什么分布,只要其二阶矩存在,即E(X)=μ、D(X)=б2都存在,则:

(1) E()=E(X)=μ

(2) D( )=D(X)=

(3) E(S2)=D(X)=б2

重要恒等式:

 

 

 

§6.2 抽样分布

 

统计量是样本的函数,它是一个随机变量。统计量的分布称为抽样分布。

 

. 三个重要分布

 

()分布

  1. 定义6.5:设X1,X2,…Xn相互独立,均服从N(0,1),则称随机变量服从自由度为n的分布,记为,即:

 

2.定理3.8:的概率密度为    

其中

 

定理的说明见P146页。

 

3.图形.

 

分布函数图:

 

data Kf;

do x=0 to 30 by 0.1;

y= PROBCHI(x, 8);

output;

end;

run;

 

proc gplot data=kf;

plot y*x=1 ;

symbol1 v=none i=join r=1 c=black;

run;

 

密度函数图:n=1,5,15

 

 

data kf;

do y=0 to 20 by 0.1;

 

z0=(y**(-0.5)*exp(-y/2))/(2**0.5* GAMMA(0.5));

 

z1=(y**(1.5)*exp(-y/2))/(2**2.5* GAMMA(2.5));

z2=(y**(6.5)*exp(-y/2))/(2**7.5* GAMMA(7.5));

output;

end;

run;

 

proc gplot data=kf;

plot z0*y=1 z1*y=1 z2*y=1 /overlay ;

symbol1 v=none i=join r=1 c=black;

run;

 

求概率:

自由度为n=25, P{X<34.382}的概率这样求。

data;

p=PROBCHI(34.382,25); put p=;

run;

其它可类推。。

 

 

4.性质

①若,E()=nD()=2n

②若且它们相互独立,

③若相互独立,均服从(μ,σ2),

 

④总体X服从参数为λ的指数分布;X1,X2,,Xn是来自该总体的样本.:

 

(二).t分布

定义6.6:X(0,1),Y2(n)且它们相互独立,则称随机变量服从自由度为nt分布,记为t(n),

 

定理3.9:的概率密度为

-<t<+

性质:

(1)t分布的密度是偶函数,图形为:

 

n=1, 10, 100

 

data student;

do t=-3 to 3 by 0.01;

 

z1=(gamma(1)*(1+t**2)**(-1))/((3.1415926)**0.5*gamma(0.5));

 

z10=(gamma(5.5)*(1+t**2/10)**(-5.5))/((10*3.1415926)**0.5*gamma(5));

 

z100=(gamma(50.5)*(1+t**2/100)**(-50.5))/(100*(3.1415926)**0.5*gamma(50));

output;

end;

run;

 

proc gplot data=student;

plot z1*t=1 z10*t=1 z100*t=1/ overlay ;

symbol1 v=none i=join r=1 c=black;

run;

 

类似(0,1)图形,n越大峰值越高。

 

 

分布函数图:n=10.

data t;

do x=-5 to 5 by 0.1;

y=PROBT(x, 10);

output;

end;

run;

 

proc gplot data=t;

plot y*x=1 ;

run;

 

(2)可证明

>45,t分布与接近。

(3)n>2时,E(T)=0, (证略)

 

(三)F分布

 

定义6.7:设V2(m),W2(n),且它们相互独立,则称随机变量服从第一自由度为m、第二自由度为nF分布,记为F(m,n)

Fm,nF(m,n)

 

 

定理3.10Fm,n为服从第一自由度为m,第二自由度为n

F分布的随机变量, 则其密度函数为

 

图形: 给定m,n可画出一个密度图形

密度函数图:

data f;

%macro a(m,n,x);

data a;

do y=0 to 2 by 0.01;

 

F&x=(gamma((&m+&n)/2)*(&m/&n)**(&m/2)*y**(&m/2-1))/(gamma(&m/2)*gamma(&n/2)*(1+(&m*y/&n))**(&m+&n)/2);

output;

end;

data F;

merge a f;

%mend a;

%a(10,25,1);

%a(10,5,2);

run;

proc gplot data=f;

plot F1*y=1 F2*y=1 / overlay ;

symbol1 v=none i=join r=1 c=black;

run;

 

易推知:

①若F~F(m,n),则~F(n,m)

②若X~t (n),则X2~F(1,n)

 

练习:书上P151有证明。

 

,证明:

(注:表示服从自由为的F分布,表示F分布的分位数。

如:

data;

Q_F=FINV(0.95,12,9); put Q_F= ;

Q_F=FINV(1-0.95,12,9); put Q_F= ;

 

Run;

 

.常用概率分布的分位数

 

定义6.8 X(x),对于给定的正数

(0<<1),若存在一个实数A满足:

P{x>A}=

则称AX的上侧分位数,简称上分位数;若X服从某分布,称A为某分布的上分位数。

 

(1) ~

称满足的数为自由度为n分布的上分位数。

 

查表①P248 n45

n>45

 

注意所以类的统计分析软件不是这样定义的,只有一个分位数(实际上是下分位数的定义)

 

书上P147---148页,

 

data;

q1= CINV(1-0.005, 10); put q1=;

q2=CINV(1-0.01, 10); put q2=;

q3=CINV(1-.1,10); put q3=;

q4=CINV(1-.1,25); put q4=;

run;

 

q1=25.188179572

q2=23.209251159

q3=15.987179172

q4=34.381587018

 

自由度为n=25, P{X<34.382}的概率。

data;

p=PROBCHI(34.382,25); put p=;

run;

 

 

其它一些分布分位数求解

如前几章讲过的,对于正态分布有结果:

SAS的两种计算公式:

 

data;

p1=PROBNORM(1)-PROBNORM(-1); put p1=;

p2= PROBNORM(2)-PROBNORM(-2); put p2=;

p3= PROBNORM(3)-PROBNORM(-3); put p3=;

run;

 

p1=0.6826894921

p2=0.9544997361

p3=0.9973002039

 

 

data;

p1=2*PROBNORM(1)-1; put p1=;

p2=2*PROBNORM(2)-1; put p2=;

p3=2*PROBNORM(3)-1; put p3=;

run;

p1=0.6826894921

p2=0.9544997361

p3=0.9973002039

 

也可以验证数据,即以为中心,需要几倍的标准差距离所构成的区间,其区间内的概率为上述所示。

Data;

q1=abs(probit((1-0.6826894921)/2));put q1=;

q2=abs(probit((1-0.9544997361)/2));put q2=;

q3=abs(probit((1-0.9973002039)/2));put q3=;

run;

q1=0.9999999999

q2=2

q3=2.9999999959

 

data;

q1=probit(1-(1-0.6826894921)/2);put q1=;

q2=probit(1-(1-0.9544997361)/2);put q2=;

q3=probit(1-(1-0.9973002039)/2);put q3=;

run;

 

q1=0.9999999999

q2=2

q3=2.9999999959

 

注意:为中心,概率为90%,95%,98%,99%的区间,需要几倍的标准差距离。

 

Data;

q1=abs(probit((1-0.9)/2));put q1=;

q2=abs(probit((1-0.95)/2));put q2=;

q3=abs(probit((1-0.98)/2));put q3=;

q3=abs(probit((1-0.99)/2));put q3=;

run;

q1=1.644853627

q2=1.9599639845

q3=2.326347874

q3=2.5758293035

 

比如,

=0.95

等的结论也是常用的。几乎都成常识了。

 

data;

q1=exp(-1.65**2/2)/sqrt(2*(3.1415926));put q1=;

q2=PROBNORM(-1.65); put q2=;

aa=q1/q2;put aa=;

run;

 

还有如:

 

SAS FUNCTIONS: Quantile Functions

BETAINV(p,a,b)

returns a quantile from the beta distribution

CINV(p,df<,nc>)

returns a quantile from the chi-squared distribution

FINV(p,ndf,ddf<,nc>)

returns a quantile from the F distribution

GAMINV(p,a)

returns a quantile from the gamma distribution

PROBIT(p)

returns a quantile from the standard normal distribution

TINV(p,df<,nc>)

returns a quantile from the t distribution

 

 

 

可证明:n很大

(2)Tt(n)

称满足P{T>tα(n)}=的数tα(n)t(n)分位数。

查表: n45,直接查表。

n>45, , tα(n)=uα

 

注意:Tt(n)的密度是偶函数。

称满足正数为分布的双侧分位数。

易知: 查表可得,

同样标准正态分布有:

例:n=20t分布,求其0.1的上分位数,有

 

data ;

q=TINV(1-0.1,5); put q=;

q=TINV(1-0.1,10); put q=;

q=TINV(1-0.1,20); put q=;

q=TINV(1-0.1,50); put q=;

q=TINV(1-0.1,100); put q=;

q=TINV(1-0.1,200); put q=;

qnorm=(probit(1-0.1));put qnorm=;

run;

q=1.4758840488

q=1.3721836411

q=1.325340707

q=1.2987136942

q=1.2900747613

q=1.285798794

qnorm=1.2815515655

 

对于概率:我们看一下当n很大时,t(n)和标准正态分布的近似性。

 

 

data;

prob_t=PROBT(1.3, 5); put prob_t=;

prob_t=PROBT(1.3, 10); put prob_t=;

prob_t=PROBT(1.3, 20); put prob_t=;

prob_t=PROBT(1.3, 50); put prob_t=;

prob_t=PROBT(1.3, 100); put prob_t=;

prob_t=PROBT(1.3, 200); put prob_t=;

Prob_n=PROBNORM(1.3);put Prob_n=;

Run;

 

 

(3)FF(m ,n)

称满足P{F>Fα(m,n)}=的数Fα(m,n)F分布的上分位数。

查表:①表中有的可直接查表P250

②表中没有的

 

.正态总体的S2的分布

定理6.2(费歇(Fisher)定理)

设总体XN(μ,σ2),X1,X2,,Xn为来自总体X的样本,其样本均值和样本方差分别记为S2

则有(1)S2相互独立。

(2)

(3)

证明见书P150

 

推论1

 

例:总体,问是否独立?

又问+服从什麽分布?

 

推论2

定理6.3:设有两个总体: ,其样本为X1,X2, ,Xn,样本均值,样本方差总体,其样本为,样本均值为,样本方差为,且两个样本相互独立.则有:

(1)

 

(2)

 

(3)

 

特别当时,

 

(4)当时,

其中

 

 

例:设总体为来自总体的样本。令

试确定使服从分布,并指出其自由度。

 

本章习题:1~8

 

附加:

设总体X服从贝努里b(1,p)分布,其中p是未知参数。X=(X1,X5)是从中抽取的一简单随机子样。写出它的子样空间和X的概率分布;

 

前往Begtostudy的编程知识博客(CSDN)