区间估计 and t分布

一、点估计量

点估计量是通过最具代表性的样本,对总体参数给出的最佳估计。点估计量是有价值的,但总会存在误差。

 

二、置信区间

让总体参数介于a和b之间,使得该区间包含总体参数的概率为p。即:P(a<参数<b) = p

我们用(a,b)表示这个区间,(a,b)称为置信区间,p称为置信水平。

那么如何求总体参数的置信区间呢?

 

三、求解置信区间的四步骤

  • 选择总体统计量(用于构建置信区间)
  • 求出其抽样分布
  • 决定置信水平
  • 求出置信区间上下限

step 1 选择总体统计量

选择用于构建置信区间的统计量,取决于要解决的实际问题,通常是总体均值和比例。

实例:某公司需要为口香糖口味持续时间的均值构建置信区间,于是需要为总体均值𝓊构建置信区间,已知n=100, =25, = 62.7。

 

step 2 求的所选统计量的抽样分布

需要知道所选统计量的抽样分布,期望方差及分布情况,代入除所选统计量外已知参数。

实例:样本均值抽样分布 E() = 𝓊   Var() = /n,为求出𝓊的置信区间,代入总体方差数值和样本大小n,然后利用的分布求出置信区间。

若不知道总体方差,可通过点估计量估计, =  。最后需要明确分布情况,这里假定X~N(𝓊,),那么也符合正态分布。

 

step 3 决定置信水平

置信水平越高,区间越宽,置信区间包含总体统计量的几率越大,但把置信区间弄得太宽的问题会导致置信区间失去意义。

实例:选取置信水平为95%。

 

step 4 求出置信区间上下限

由于符合正态分布,所以我们可以利用正态分布求置信区间,算出标准分,查询标准正态分布概率表,得出结果。

实例:已知~N(𝓊,0.25)

则 ,其中Z~N(0,1) 。然后需要利用标准正态分布表求出Za和Zb,其中P(Z<Za) = 0.025且P(Z>Zb) = 0.0255,Za = -1.96,Zb = 1.96。

所以,-1.96<(-𝓊)/0.5<1.96,-0.98<𝓊<+0.98,  = 62.7,置信区间为(61.72,63.68)。

结论:(61.72,63.68)中包含口味持续时间总体均值的几率为95%。

 

四、置信区间简便算法

总体统计量 总体分布 已知条件 置信区间
𝓊(总体均值) 正态

已知

n可大可小

 为样本均值

,
𝓊 非正态

已知

n很大(至少30)

 为样本均值

,
𝓊 正态或非正态

未知

n很大(至少30)

 为样本均值

总体方差的点估计量 

(,)
p(总体比例) 二项

n很大

Ps为样本比例

qs= 1 - Ps

(,

 

置信区间:统计量+-(误差范围)。误差范围 = c * (统计量标准差)。c值通过置信水平得到,当置信水平为95%时,c = 1.96。

 

五、 t分布

上述情况中,样本统计量(均值和比例)服从正态分布,但并非任何情况都能用正态分布。

当总体X符合正态分布时,一定符合正态分布吗?

答案是不一定,当总体分布为正态分布,但样本量小且未知时,不符合正态分布。实际上,在此情况下,符合t分布

 

t分布外形与正态分布相似,T~t(v) 则T符合t分布且自由度为v,v = n-1,n为样本大小。

t分布使用方法与正态分布相似,计算标准分,先减去均值然后除以标准差。

t分布的标准分:  ,其中 = 

t分布置信区间:(),其中t通过置信水平和t分布表确定。

 

对于总体均值估计,样本n很大时,样本均值分布服从正态分布。

当n不大时,若总体服从正态分布且总体方差已知,样本均值分布服从正态分布。

当n不大时,若总体服从正态分布且总体方差未知,样本均值分布服从t分布。

 

2020.05.14 15:20

 

posted @ 2020-05-14 15:19  傅余生  阅读(1785)  评论(0编辑  收藏  举报