抽样调查备考纲要
抽样调查复习纲要
注:本文中提到的证明可点此查看。
前置准备
如何估计参数
抽样调查研究的是有限总体的分布。一般说来,需要估计的参数为总体均值\(\bar Y\)、总体总值\(Y\)、总体比例\(P\)与比率\(R\),事实上它们都可以看做均值估计的变体,而区别无非在于,对总体总值有\(Y=N\bar Y\);对总体比例,它是\(Y_i=0/1\)时的特殊均值;对比率,它则是两个均值的比。
当我们获得某个估计量时,需要考虑它的精度,这个精度往往与总体的离散程度有关。为了刻画总体的离散程度,引入方差\(S^2\),它定义为
特别对比例估计\(Y_i=0/1\),\(\bar{Y}=P\),有
显然,对于一个未知的总体,\(S^2\)也是待估参数,我们只能从样本中获得关于总体方差的信息。然而计算可发现,估计量的方差往往与\(S^2\)有关,如果不估计\(S^2\),将不能获得统计量的置信区间。因此,方差估计也是我们要考虑的问题。
对于存在辅助变量的情况,研究两个指标之间的相关程度往往用协方差为
类似地,它也是待估参数。而\(X,Y\)的相关系数就是\(\rho=\dfrac{S_{yx}}{SS_x}=\dfrac{S_{yx}}{\sqrt{S^2S_x^2}}\)。
最后,如果某个估计量是某个参数的估计量,如均值\(\bar{Y}\)的估计量\(\hat{\bar Y}\),那么我们记它的期望为\({E}(\hat{\bar Y})\),方差为\(V(\hat{\bar {Y}})\)。由前所述,方差中往往包含待估参数,所以要对方差进行估计,将估计量记作\(v(\hat{\bar Y})\)。读者应时刻记住\({E}(\hat{\bar{Y}})\)与\({V(\hat{\bar{Y}})}\)为一个数,但\(v(\hat{\bar{Y}})\)是一个统计量(可以看作\(\hat {{V}}(\hat{\bar{Y}})\))。当我们获得以上信息后,可以由中心极限定理给出统计量\(\hat{\bar{Y}}\)的置信区间为:
特别当我们取\(\alpha=0.05\)时,有\(u_{\alpha/2}\approx 1.96\),这是非常常用的结果。
设计效应\(deff\):一个统计量的设计效应指的是在相同样本量情况下,统计量方差与简单随机样本方差之比,也就是相对于简单随机样本的一个样本,这个统计量用\(deff\)个样本来达到相同效果。显见\(deff\)越小统计量就越好。
学习框架
对一个抽样方法,不外乎需要掌握以下的内容:
- 抽样如何实施。
- 统计量的形式与性质。
- 方差与方差估计。
- 样本量的确定。
在掌握以上三点的情况下,再学习部分重要定理的证明即可。
简单随机抽样
简单随机抽样的实施方法是:完全按照随机原则取样,事先确定每个抽样单元被抽中的概率且它们应当是均等的。具体实施来看,又可以分为只调查研究对象的简单估计,以及使用辅助变量的比估计与回归估计。
对于简单随机估计,我们主要研究其均值\(\bar{Y}\)。
简单估计
先讨论简单估计,简单估计的形式很简单,即
它是总体均值的无偏估计,即\({E}(\bar{y})=\bar{Y}\),证明方法是典型的科恩菲尔德法(证明1)。
接下来考虑方差,其方差的精确结果是\(V(\bar{y})=\dfrac{1-f}{n}S^2\)(证明1),但如前所述,\(S^2\)是未知的,因此需要用统计量估计\(S^2\)。常常用样本方差估计总体方差,样本方差即
可以证明,样本方差是总体方差的无偏估计(证明2),因此,对\(V(\bar{y})\)的估计就是\(v(\bar{y})=\dfrac{1-f}{n}s^2\),运用中心极限定理,就得到其置信区间。
如果是比例估计,同理可以推得
比率估计
比率估计量利用了辅助统计量的性质,在调查中,运用辅助统计量的原因是辅助统计量的数据往往易于获得,且辅助统计量往往与待估统计量具有一定的联系。我们在选择辅助统计量时,默认假定辅助变量的总体总值已知。
为了描述统计量之间的关系,使用协方差来刻画相关程度,注意这里的协方差指的是随机变量之间的协方差,而不是前述的待估参数\(S_{yx}\),但事实上,协方差与\(S_{yx}\)是正相关的,也就是说\(S_{yx}\)越大,辅助统计量与待估统计量之间的相关关系越大,使用比率估计的可靠性就越高。
为了估计\(S_{yx}\),我们使用样本协方差\(s_{yx}\),有(无偏性证明见证明2)
现在可以介绍比率估计量,目标依然是估计\(\bar{Y}\),我们推断可能有\(\dfrac{\bar{Y}}{\bar{X}}\approx\dfrac{\bar{y}}{\bar{x}}\),从而我们给出比率估计量的形式为
在我们假定下\(\bar{X}\)是一个常数,所以此式中的随机变量实际上是比率\(\hat{R}=r=\dfrac{\bar{y}}{\bar{x}}\)。我们应注意到,这个统计量的分母依然是一个随机变量,而\(E(r)\ne \dfrac{E(\bar y)}{E(\bar x)}=R\),这表明比率估计量并非无偏估计。但是,我们依然可知道\(E(r)\approx R\)。
对\(r\)的偏差估计,我们有(证明3)
这里后一个公式较为常用,为对\(V(r)\)作出估计,只要用\(r\)代替\(R\),用\(s_{yx}\)代替\(S_{yx}\),\(s^2\)代替\(S^2\),\(S_x^2\)代替\(s_x^2\)即可,即
综合以上讨论,特别对\(\bar{y}_{R}\),我们能得出以下结论:
回归估计
回归估计更充分地利用了辅助统计量的信息。比率估计量将样本点\((x_i,y_i)\)视为正比例关系,如果将其描绘在\(xOy\)平面上,我们预期它的拟合结果将是一条通过原点的直线;但有时,\((x_i,y_i)\)仅是一条直线,不考虑截距可能造成较大的误差。回归估计就考虑了截距的影响,将估计量定为
需要注意的是,\(\beta\)并不一定是事先确定的常数,它可能随抽样结果灵活选择,因此可以视之为随机变量。自然 ,当\(\beta\)是事先确定的常数与随机变量时,统计量的性质是不一样的。
当\(\beta\)是常数\(\beta_0\)时,我们容易得到比率估计量的性质为
因此,为了使比率估计量有最小方差,只需对\(\beta_0\)求导,容易得到最优\(\beta_0\)为\(B=\dfrac{S_{xy}}{S_{x}^2}\),但是总体的\(S_{xy}\)和\(S_{x}^2\)未知,因此这个最优\(B\)往往难以确定。一个自然的想法是,用\(s_{yx}\)和\(s_x^2\)分别替代\(S_{xy}\)和\(S_x^2\),得到\(B\)的估计量为\(b=\dfrac{s_{yx}}{s_{x}^2}\),但此时它们都是随机变量,统计量的性质就发生了改变。此时,
注意由于\(b\)与\(\bar{x}\)不独立,\(E(b\bar{x})\)难以计算,但当\(n\)足够大时有\(E(\bar{X}-\bar{x})\approx 0\),因此我们有
而对方差,我们只需直接用\(B=\dfrac{S_{yx}}{S_{x}^2}=\dfrac{\rho S}{S_{x}}\)代替\(b\),就可以近似得到以下的结果:
由于\(\rho^2\ge 0\),所以\(n\)不小时,回归估计一般优于简单估计。
分层随机抽样
对分层随机抽样,要将总体划分为\(L\)层,在每一层中分别执行简单随机抽样。在分层随机抽样中,有一很重要的概念即层权\(W_h=\dfrac{N_h}{N}\),它是各层中样本在总体中的比例,也是用于加权的权因子,这意味着为执行分层随机抽样,需要预先获得层权,同时也说明层权是常数而非随机变量。这里,我们估计的参数依然是总体均值\(\bar{Y}\)。
在分层抽样中,很容易陷入一个误区:即样本中的层权一定与总体层权一致;如果总体比例是\(a:b:c\),则样本中\(n_1:n_2:n_3=a:b:c\)。实际上这是不一定的,样本量的选择也是我们需要考虑的一个问题。
简单估计
分层随机抽样的简单估计,是对各层先执行简单随机估计,再利用层权进行加权。即
很容易验证\(E(\bar{y}_{st})=\bar Y\),且根据简单随机抽样的性质,它的方差为
在实际计算中,我们往往使用第一个等式,后一个等式在后面样本量的确定上将被使用。
比率估计
比率估计需分为分别比估计和联合比估计,它们的区别在于“比”与“分层”的先后。但由于出现了比,也就是随机变量在分母的情况,无论是哪种比估计,都不会是无偏的。
分别比估计(separate),指的是在每一个层中分别作比估计,再将得到的比估计按层加权。由于每一层的层内比估计是渐进无偏的,所以分别比估计也是渐进无偏的,其性质都很自然,即
而联合比估计(combined),指的是先分别作\(\bar{Y}\)和\(\bar{X}\)的分层抽样简单估计,再结合比估计的形式作比,也就是
其本质仍然是比率估计,但是对比率的估计采用了分层随机抽样的简单估计,而不是简单的随机抽样;同时,在构造过程中,不需要知道每一层的\(R_h\),自然也不用求其估计量\(r_h\)。我们可以证明有(证明4)
如何选择两种比估计?将两个方差直接作差得到的结果可能稍显复杂,我们可以针对每一层看。显然对每一层若都有\(R=R_h\),则两种比估计的效率相同,一般说来,如果每一层抽取的样本量\(n_h\)都比较大,则分别比估计更有效,如果某些层样本量不够大,就采用联合比估计。
样本量确定
现在回到样本量的选择上,应当如何选择样本量最合适?一种自然的想法是,让各层的样本量之比等于层权之比:\(f_h=\dfrac{n_h}{N_h}=f\),即比例分配,这样的做法虽略显粗糙,但具有一个优良的性质:自加权。所谓自加权样本,就是不需要按照特殊的抽样方式构造统计量,只需要直接计算总体均值,再乘以一个常数即可。对于比例分配,我们有
可以发现,当我们使用比例分配时,分层随机抽样统计量与简单随机抽样的统计量形式上是一致的,这就是自加权性质。
不过实际生活中,希望统计量的方差尽可能小,从而使抽样精度变高,在受到实际条件约束时,如何选择最小化方差的样本,以及如何在方差满足要求的情况下控制成本是我们需要考虑的问题。
对于成本的刻画,一般使用线性函数。假设在第\(h\)层每调查一个样本的平均成本为\(c_h\),固定成本为\(c_0\),那么总费用函数就是
对于方差,我们有
注意到后面一项与样本量无关。为使\(C_{T}V(\bar{y}_{st})\)尽可能小,对此式稍作修改以便处理,最终有
由柯西不等式,最优分配的\(n_h\)应满足(证明5)
值得注意的是,\(n_h\)之间的最优比例与总费用函数与预期的方差都无关,所以无论是给定最大费用还是最小方差,都应当先算出各\(n_h\)之间的最优比例。
最后,当\(c_h=c\)即各层抽样单位成本相同时,最优分配有\(n_h\propto W_hS_h\),这种分配方案称Neyman分配。
整群抽样与多阶段抽样
多阶段抽样主要探究的是抽样单元不一定是基本单元的情形,即将初次抽样的单位定义为初级单元,然后可以普查整个初级单元,或者在初级单元内部再抽样。前者称为整群抽样,后者则称为多阶段抽样。可以说,整群抽样是多阶段抽样的一个特例。
需要注意的是,整群抽样和多阶段抽样具有比较特殊的符号表达,由于有两个层级,所以\(Y\)视为PSD的总值,\(Y_i\)视为第\(i\)个PSD的总值,\(Y_{ij}\)才是每一个样本值。为表达均值,\(\bar{\bar{Y}}\)表示所有PSD中所有SSD的均值,\(\bar{Y}_i\)表示第\(i\)个PSD中SSD的均值。可以看到,每多加一个修饰,参数所代表的层级就下降一级。而\(\bar{Y}\),指的就是群总值的均值。以上概念,需要读者自己体会。
整群抽样
我们只讨论群规模相等的等概率整群抽样,这时候\(N\)为PSD的个数,由于是等规模的群,所以每一个PSD中,视为有\(M\)个SSD。整群抽样的特点就是,在第二阶段获得的样本信息就是总体信息,如\(\bar{y}_i=\bar{Y}_i\),因为第二阶段是普查。
现在,我们主要估计的目标是\(\bar{\bar Y}\)。既然整群抽样的第一阶段是简单随机抽样,而且群规模之间又是相等的,那么一个自然的想法是,将每一个群的群均值构造为“抽样单元”,构造简单估计,即
使用如此的估计,必不可少的条件是群规模相等,因为在群规模相等时,群均值的均值就是总体均值,因为
这样,由简单随机估计的性质,就有\(\displaystyle{E\left(\frac{1}{n}\sum_{i=1}^{n}\bar{y}_i \right)=\frac{1}{N}\sum_{i=1}^{N}\bar{y}_i=\bar{\bar{Y}}}\)。由此,我们也可以看出,其实整群抽样就是变换了抽样单位的简单随机抽样,也因此我们有
整群抽样方差分析
在整群抽样中,我们往往会讨论三个方差:总体方差、群间方差(between)与群内方差(within),有
这里,群内方差是不同群内方差的平均值,由方差分析的结论,三式的分母就是其自由度。显然它们都是待估参数,在对总体情况不甚了解的时候需要对它们进行估计,由前所述,整群抽样是另一种形式的简单随机抽样,因此可以很容易给出\(S_b^2\)和\(S_w^2\)的估计:
这里\(s_b^2\)相当于简单随机抽样中总体方差的估计,\(s_w^2\)相当于简单随机抽样中总体均值的估计(读者可自行寻找抽样单位)。
引入方差分析的主要目的是用于研究设计效应,对它的研究用到群内相关系数:
这里运算符\(E\)表示对对所有离散的情况求平均,显见
现在,我们可以给出结论:整群抽样的设计效应为(证明6)
因\(\rho_c\)也是一个待估参数,故我们使用\(\hat\rho_c=\dfrac{s_b^2-s_w^2}{s_b^2+(M-1)s_w^2}\)来估计\(\rho_c\),这样就可以计算设计效应。
两阶段抽样
对多阶段抽样,我们以PSU规模相等的等概率两阶段抽样作为示例,如此抽样意味着第一阶段从\(N\)个PSD中简单随机抽取\(n\)个,并从抽出的PSD中的\(M\)个SSD中随机抽取\(m\)个,定义\(f_1=\dfrac{n}{N}\),\(f_2=\dfrac{m}{M}\)。符号规定可类比整群抽样,但由于第二阶段不是普查,所以\(\bar{y}_i\)只能作为\(\bar{Y}_i\)的一个估计量。以下定理在两阶段抽样时十分常用:(证明7)对任意两阶段统计量\(\hat\theta\),有
这里\(E_2,V_2\)是固定初级单元时对第二阶段的均值和方差,\(E_1,V_1\)分别是第一阶段抽样的均值和方差。
基于此,虽然\(\bar{y}_i\ne \bar{Y}_i\),但是\(\bar{y}_i\)会是\(\bar{Y}_i\)的一个无偏估计,因而对两阶段抽样构造的统计量应当与整群抽样类似,即
由两阶段抽样定理,有
最后一个等号只有在初等单元等规模时才成立。
两阶段抽样方差估计
为了估计其方差,我们需要引入一些符号。首先是PSD间方差\(S_1^2\),它是将群均值视为抽样单元构造出的方差估计,即此时,将每一个群的均值看作一个抽样个体。
其次是PSD内方差,对第\(i\)个PSD其PSD内方差\(S_{2i}^2\)为
特别将这些方差取平均值,就得到PSD内方差\(S_2^2\)为
现在我们可以给出\(\bar{\bar{y}}\)的方差为(证明8)
为找出\(V(\bar{\bar{y}})\)的估计,显而易见只要替代了\(s_1^2\)和\(s_2^2\)即可,且自然
但它们并不全是无偏估计,事实上,有\(E(s_1^2)=S_1^2+\dfrac{1-f_2}{m}S_2^2\),\(E(s_2^2)=S_2^2\)(证明9),于是
两阶段抽样可以类似地推广到三阶段抽样,具体可见这篇文章。
不等概抽样
不等概抽样是用于补足样本性质的常用手段,事实上它与整群抽样和多阶段抽样的结合更为常见。不等概抽样的应用,肯定是基于我们有设置“不等概率”的理由,一般我们称之为样本单元的规模,这是一个与\(Y_i\)相对应的属性\(M_i\),且事先已知,务必注意\(M_i\)为常数。
注意,与之前不同,由于不等概抽样会使均值发生变化,因此不等概抽样对总体总值\(Y\)进行估计。这里我们讨论最基础的放回不等概抽样与不放回不等概抽样,对应的抽样方式是\(\mathrm{PPS}\)抽样与\(\mathrm{\pi PS}\)抽样。需掌握Hansen-Hurwitz统计量与Horvitz-Thompson统计量,同时,引入示性变量来计算统计量某些性质的方法在这一章中再次被提及。
放回不等概抽样
放回不等概抽样相对于不放回不等概抽样更易于实施,这是因为它每一次抽样面对的总体都是一致的,因此每次抽样的随机变量可以认为是独立同分布的。对于独立同分布随机变量列,我们只需研究一个,就能知道样本量增大时的结果。
最常用的放回不等概抽样方式吗,是与规模大小成比例的抽样,即\(\mathrm{PPS}\)抽样。这是将\(M_i\)之间的比例作为抽中的概率\(Z_i\)的比例,也就是\(Z_i=\dfrac{M_i}{M_0}\),由此使得每个样本的抽取具有不同概率。
为使得获得的统计量是无偏的,应将样本值除以其抽中的概率,这样对每一次抽取,获得观测的实际上是\(\dfrac{Y_i}{Z_i}\),且
这表明对单次抽取,\(\dfrac{Y_i}{Z_i}\)是总体总值\(Y\)的无偏估计,再结合随机变量列的独立同分布性,可以推得\(\mathrm{PPS}\)抽样的汉森-赫维茨(Hansen-Hurwitz)统计量为
显然有
对其方差的估计,我们有以下无偏估计:(证明10)
需要注意的是,由于抽样是不等概的,因此对简单随机抽样的结论不再适用,对此定理的证明与科恩菲尔德法类似,需要学习。
两阶段放回不等概抽样
前面提到,整群抽样与两阶段抽样可能会遇到PSD规模不等的情况,这时用\(\mathrm{PPS}\)抽样可以很好地解决问题,因\(\mathrm{PPS}\)抽样本身针对的就是抽样单元的规模。事实上,放回不等概整群抽样因其普查性,完全可以将\(Y_i\)视作抽样的对象,故放回不等概整群抽样与放回不等概抽样完全一致,现在我们讨论两阶段放回不等概抽样。当然,此时的估计对象依然也是总体总值。
对两阶段放回不等概抽样,规模仍取PSD中SSD的个数\(M_i\),第二阶段习惯上采取简单随机抽样,但也可以使用其他抽样方式。由简单随机抽样的无偏性,第二阶段只需取\(\hat{Y}_i\)作为总体总值的无偏估计量即可构造HH统计量,形如
用两阶段抽样基本定理可知\(E(\hat{Y}_{HH})=Y\),且
上式中需特别注意第三个等号,如果将简单随机抽样中的结论不加思考地应用,很容易得到\(\displaystyle{E_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{V_2(\hat{Y}_i)}{Z_i^2} \right)=\frac{1}{N}\sum_{i=1}^{N}\frac{V_2(\hat{Y}_i)}{Z_i^2}}\)的错误结论,事实上,这还是一个HH统计量的期望。最后的\((*)\)式仅当第二阶段采用简单随机抽样时成立。
它仍是一个无偏估计,且与第二阶段的抽样方式无关。由于证明略复杂,可见这篇文章。
不放回不等概抽样
不放回不等概抽样则相对复杂一些,因为每次抽样的分布不一致,但这也使得每个单元至多入样一次,在调查上减小了成本。对每个单元\(Y_i\),称其包含概率为\(\pi_i\),而两个单元\(Y_i\)和\(Y_j\)同时入样的包含概率记作\(\pi_{ij}\)。严格的\(\mathrm{\pi PS}\)抽样指的是对抽样前就固定的\(n\),总有\(\pi_i=nZ_i\)。
对不放回不等概抽样,常用霍维茨-汤普森(Horvitz-Thompson)估计量来估计总体总值,如果记\(\alpha_i\)表示第\(i\)个单元入样的示性随机变量,则
只需利用期望和方差的性质,就能得到\(E(\hat{Y}_{HT})=Y\),其方差为
不过,对方差的估计并不是一件易事,常用的无偏估计为(注意分母的变化)
其证明略显复杂,可见这篇文章。
特别当\(n\)固定时,对给定的\(i\),有
于是有(方差变换见证明11)
\(\mathrm{\pi PS}\)抽样方法
\(\mathrm{\pi PS}\)抽样方法设计是比较麻烦的,这里给出三种抽样方法,其中,前两种是严格的\(\mathrm{\pi PS}\)抽样法,即当\(n\)固定时的抽样,因此可以用\(n\)固定时的方差估计;后一种是非严格的\(\mathrm{\pi PS}\)抽样,\(n\)是不固定的。
对\(n=2\)时\(\mathrm{\pi PS}\)抽样有很好的方法,即Brewer方法,它要求所有总体单元的\(Z_i\le \dfrac{1}{2}\)(一般来说这是容易达到的)。首先按与\(\dfrac{Z_i(1-Z_i)}{1-2Z_i}\)成比例的概率抽取第一个单元,随后再以和\(Z_i\)成比例的概率抽取下一个单元,这种抽样方法是\(\mathrm{\pi PS}\)的,因为(证明12)
在这种情况下,应有(\(n\)固定为\(2\))
当\(n>2\)时,一般使用水野法:
-
以概率\(Z_i^*=\dfrac{n(N-1)Z_i}{N-n}-\dfrac{n-1}{N-n}\)(书上公式有误)抽取第一个样本单元,可验证
\[\sum_{i=1}^{N}Z_i^*=\frac{n(N-1)}{N-n}-\frac{N(n-1)}{N-n}=1. \]为使\(Z_i^\ge 0\),要求每个单元大小满足\(M_i\ge\dfrac{(n-1)M_0}{n(N-1)}\)。
-
在剩下的\(N-1\)中,不放回等概率地抽出\(n-1\)个样本。
最后,非严格的\(\mathrm{\pi PS}\)抽样针对\(n\)不固定的情况,以耶茨-格伦迪(Yates-Grundy)逐个抽取法为例。这是一种很自然的抽样想法,即每一步都与和\(Z_i\)成比例的概率从未被抽取的样本中抽样。这种抽样方式不满足严格的\(\pi_i=nZ_i\),但是简单易行。不过,因\(\pi_i\)不易计算,不能使用HT统计量,故使用Raj统计量,取
对\(\hat{Y}_{Raj}\),有
二重抽样
二重抽样针对信息不能预先了解的总体,先抽取一个大的初始样本调查总体辅助信息,再从此初始样本中抽取一个更小的子样本,对子样本进行详细调查。在分层抽样与不等概抽样中,我们或多或少对总体有大致了解(如层权、规模),而二重抽样,就能够应对对总体不甚了解的情况。
要注意,二重抽样的主要特征是,两次抽样的针对性不同。第一重抽样虽然抽取的样本量大,但是只调查辅助信息,因而单位成本也较低;第二重抽样虽然抽取的样本量小,但是要调查细节信息,因而单位成本较大。实际抽样中,如何分配两重的样本量,也是需要考虑的问题。
分层二重抽样
现在以二重抽样的一个具体目标:确定层权为例,因执行分层抽样需要预知层权,故层权未知时,可以使用二重抽样进行预调查。具体操作是:
-
利用简单随机抽样,从\(N\)个单位中随机抽取\(n'\)个初始样本,根据分层标志将第一重总体分层。如\(n'\)个样本中有\(n_h\)个第\(h\)层样本,则预估层权为
\[w_h'=\frac{n_h'}{n'}, \]这是一个随机变量,但显然\(E(w_h')=W_h\)。
-
利用分层随机抽样,抽取\(n\)个第二重样本,第\(h\)层样本单位数为\(n_h\)。这时,每一层的均值估计是
\[\bar{y}_h=\frac{1}{n_h}\sum_{h=1}^{L}y_{hj}. \]实际执行时,\(n'\)、\(n\)以及诸\(n_h\)由抽样者制定。
对均值的估计,自然的结果是
要注意,二重抽样依然是两阶段的,因此两阶段抽样基本定理适用。在固定初始样本(第一阶段抽样)后,\(w_h'\)和第一重样本内第\(h\)层均值\(\bar{y}_h'\)都是固定的量。
由于第二层是分层随机抽样,令抽样比为\(f_{hD}=\dfrac{n_h}{n_h'}=\dfrac{n_h}{w_h'n'}\),故固定初始样本时,每一层的样本均值\(\bar{y}_h\)应当是第一重样本内的第\(h\)层均值\(\bar{y}_h'\)的无偏估计,也即\(E_2(\bar{y}_h)=\bar{y}_h'\)。这样,我们可以证明\(\bar{y}_{stD}\)具有如下的性质:(证明14)
对\(V(\bar{y}_{stD})\)的估计是渐进无偏的,用以下稍显繁琐的式子来计算:
近似的结果需要两次抽样的方差比都可以忽略,这要求总体非常大,大到可以接受两次可忽略抽样比的简单随机抽样。
分层二重抽样的样本量最优分配
在实施二重抽样之前,我们要确定两次抽样的样本量,即\(n'\)和\(n\)。确定最优样本量的过程,在这里定义为在一定的费用约束下,令方差最小化。
先讨论成本函数,设第一重抽样的平均调查成本为\(c_1\),第二重第\(h\)层抽样的平均调查成本为\(c_{2h}\),则
这里我们暂忽略固定成本\(c_0\)(因为对最后的讨论没有影响),但此时\(n_h\)是随机变量,故我们应对\(C_{T}\)求期望,将期望作为最终的成本函数,即
使用Cauchy不等式,得到最优的样本分配模式为(证明15):
得到了\(f_{hD}\),就可以通过\(n_h'\)来确定\(n_h\),最终确定\(n\)。
二重抽样比估计
另一种需要应用辅助变量信息的估计方式是比估计,如果事前不知道辅助变量的\(\bar{X}\),也可以用二重抽样预估。具体操作是:
-
抽取\(n'\)个第一重样本,仅观测辅助变量\(X\)的值,得到辅助变量的样本均值为\(\bar{x}'=\displaystyle{\frac{1}{n'}\sum_{i=1}^{n'}x_i'}\),显然有\(E_1(\bar{x}')=\bar{X}\);
-
在第一重样本中抽取\(n\)个第二重样本,构造比估计\(\hat{R}=\dfrac{\bar{y}}{\bar{x}}\),从而
\[\bar{y}_{RD}=\frac{\bar{y}}{\bar{x}}\bar{x}'. \]
由比估计的性质,我们知\(E_2(\bar{y}_{RD})\approx \bar{y}'\),故
即二重抽样比估计是样本均值的渐进无偏估计,且方差为
我们可以观察它与分层二重抽样方差的异同。对方差的估计,使用
二重抽样比估计的样本量最优分配
对二重抽样比估计,需要事前确定的样本量,一是初次抽样的样本量\(n'\),二是第二次抽样的样本量\(n=n'f\),从而费用函数的期望为
而方差为
故极小化
由柯西不等式,可知
其他抽样方式
本部分抽样方式均只需略作了解,故这里只给出了必要的结论与简略的推导,应该覆盖了考试范围。
系统抽样
对系统抽样,我们主要讨论等概率等距系统抽样,即欲从\(N\)个总体抽取\(n\)个时,总有\(N=nk\),\(k\)是整数(否则需要围成一个环)。此时,在\(1:k\)中随机抽取一个\(Y_{r}\),并取\(Y_{r+(j-1)k}\),\(j=1:n\)作为样本。对于一个抽样来说\(k\)固定,故每个样本实际上由\(r\)和\(j\)完全决定,我们定义
事实上,系统抽样一共只可能有\(k\)组样本,且每组样本都是被整体抽中的,因此系统抽样可以看作特殊的整群抽样,此时\(r=1:k\)就代表\(k\)个群,\(j=1:n\)就代表一个群中的每个样本。因此,等概率等距系统抽样可以看作只抽取一个群的等概率等规模整群抽样,故
显然有\(E(\bar{y}_{sy})=\bar{Y}\),其方差为\(E(\bar{y}_{sy}-\bar{Y})^2\)。但需要注意,由于只抽取一个群,整群抽样的方差在此不再适用,应使用\(V(\bar{y}_{sy})=\displaystyle{\frac{1}{k}\sum_{r=1}^{k}(\bar{Y}_{r}-\bar{Y})^2}\)。我们给出其方差为:(证明13)
称\(S^2\)与\(S_{wsy}^2\)为总方差与群内方差。当\(S^2\)恒定时,群间方差\(S_{wsy}^2\)越大,\(\bar{y}_{sy}\)就越精确。与简单随机抽样相比,注意到\(k=\dfrac{n}{N}=f\),可以得到以下结果:为使\(V(\bar{y}_{sy})<V(\bar{y}_{srs})\),需使\(S_{wsy}^2>S^2\)。因此,为缩小方差,应当做好排序工作,使每一个系统样本都接近理想的群:群内差异大,群间差异小。
关于\(V(\bar{y}_{sy})\)的估计,需计算群内相关系数,考试不作要求。
捕获再捕获抽样
捕获再捕获抽样即标志重捕法,是一类较为熟悉的抽样方式。如总体有\(N\)个个体,第一次抽取\(n_1\)个样本并做上标记,第二次抽取\(n_2\)个样本,可以观察到其中带标记的个体一共有\(m\)个。对\(N\)的一个自然估计是
它是比率估计量,因而是有偏的,且\(m\)越小方差将越大,如果\(m=0\),对\(N\)的估计将是失败的。所以,我们对捕获再捕获抽样往往使用Chapman估计为