【抽样调查】其他抽样
第6部分 其他抽样
系统抽样
系统抽样概述
系统抽样:设总体中\(N\)个单元按某种顺序排列,编号为\(1:N\)。抽样程序是首先抽取一个或一组起始单元的编号,然后按某种确定的规则选取其他单元的编号,直到满\(n\)个为止。
- 系统抽样中除第一个样本点的抽取是随机的,其余样本点都不是随机的。
- 系统抽样的优点是简便易行、对抽样框要求不高;样本单元在总体中分布均匀,代表性较好。
- 系统抽样的缺点是样本量不唯一,故不存在严格意义上的无偏估计量,难以估计抽样误差。
等距系统抽样:设总体中\(N\)个单元按某种顺序排列,编号为\(1:N\)。抽样程序是先按简单随机抽样方式抽取一个起始单元的编号,然后按照固定间隔\(k\)选取其他单元的编号,直到满\(n\)个为止。这里的\(k\)称为抽样间隔,一般取不大于但最接近于\(\displaystyle{\left[\frac{N}{n} \right]}\)的一个整数。由于\(N\)不一定是\(n\)的整数倍,故样本点数可能是\(\displaystyle{\left[\frac{N}{k} \right]}\)或\(\displaystyle{\left[\frac{N}{k} \right]+1}\)。
-
\(N=nk\):直线等距抽样。即样本量为\(\displaystyle{\left[\frac{N}{k} \right]}\)的情形。
此时先从前\(k\)个单元编号中随机抽出一个单元编号\(r\)作为随机起点,然后每隔\(k\)个单元编号抽出一个单元编号,直到抽出\(n\)个单元编号为止。
抽取的样本是:\(r+(j-1)k\),\(j=1,2,\cdots,n\)。
-
\(N\ne nk\):圆形等距抽样。此时\(\displaystyle{n=\left[\frac{N}{k} \right]+1}\)。
此时将样本看作首尾相接的一个环,并从\(1:N\)中简单随机抽样抽取一个单元编号作为随机起点\(r\),然后每隔\(k\)抽取一个单元编号,直到抽出\(n\)个单元编号为止。
抽取的样本是:
\[\left\{\begin{array}{} i=r+(j-1)k,& r+(j-1)k\le N\\ i=\min\{r+(j-1)k,r+(j-1)k-N\},& r+(j-1)k>N \end{array}\right.\\ j=1,2,\cdots,n. \] -
简化处理方式:随机选出\(k_d=N-nk\)个单元扔掉,使总体规模略微缩减满足\(N=nk\)。
等概率系统抽样
以下均假设\(N=nk\),根据从\(1:k\)中抽取随机起点的结果,可以分出\(k\)组样本,故将样本排列如下:
由此,系统抽样可看成从以上\(k\)行中按简单随机抽样方式,抽取一行作为样本。为方便讨论,在上述矩阵中,将第\(r\)行第\(j\)列的样本记作\(Y_{rj}=Y_{(j-1)k+r}\),此时每一行可以视为一个群,每一列可以视为一个层,由此可以将整群抽样、分层抽样的结论加以运用。
在上述书写形式下,采用以下的符号规定。
- 总体均值:\(\bar{Y}=\displaystyle{\frac{1}{N}\sum_{r=1}^{k}\sum_{j=1}^{n}Y_{rj}=\frac{1}{nk}\sum_{r=1}^{k}\sum_{j=1}^{n}Y_{rj}}\)。
- 总体方差:\(\displaystyle{S^2=\frac{1}{N-1}\sum_{r=1}^{k}\sum_{j=1}^{n}(Y_{rj}-\bar Y)^2}\)。
- 群内均值:\(\bar{Y}_r=\bar{Y}_{r\cdot}=\displaystyle{\frac{1}{n}\sum_{j=1}^{n}Y_{rj}}\)。样本群内均值:\(\bar{y}_r=\displaystyle{\frac{1}{n}\sum_{j=1}^{n}y_{rj}=\frac{1}{n}\sum_{j=1}^{n}Y_{rj}=\bar{Y}_r}\)。
- 群内方差:\(\displaystyle{S_{wsy}^2=\frac{1}{k}\sum_{r=1}^{k}\frac{1}{n-1}\sum_{j=1}^{n}(Y_{rj}-\bar{Y})^2}\)。
总体均值的估计
系统抽样的样本均值是总体均值的估计量,为
类似地,总体总值的估计量为
定理:\(\bar{y}_{sy}\)是\(\bar {Y}\)的无偏估计,即
\[\mathbb{E}(\bar{y}_{sy})=\bar{Y}. \]
当\(N=nk\)时,每一个样本被抽中的可能性为\(\dfrac{1}{k}\),故
系统均值误差估计
由\(\mathbb{E}(\bar{y}_{sy})=\bar{Y}\),得到\(\bar{y}_{sy}\)的方差为
注意里的定义中,我们采用的是\(\dfrac{1}{k}\)而非\(\dfrac{1}{k-1}\)作为权数,即这里的方差是基于期望定义的。
定理:\(\bar{y}_{st}\)的方差为
\[\mathbb{D}(\bar{y}_{st})=\frac{N-1}{N}S^2-\frac{k(n-1)}{N}S_{wsy}^2 \]这里
\[S^2=\frac{1}{N-1}\sum_{r=1}^{k}\sum_{j=1}^{n}(Y_{rj}-\bar{Y})^2,\\ S_{wsy}^2=\frac{1}{k}\sum_{r=1}^{k}\frac{1}{n-1}\sum_{j=1}^{n}(Y_{rj}-\bar{Y}_r)^2. \]分别代表总体方差和群内方差。
将总体方差进行分解,得到
上式左端即为\(\mathbb{D}(\bar{y}_{sy})\),而
这就证明原式。
结论:系统抽样比简单随机抽样更为精确的条件是
\[\mathbb{D}(\bar{y}_{sy})<\mathbb{D}(\bar{y}_{srs})\Rightarrow S_{wsy}^2>S^2. \]这里\(S_{wsy}^2\)是群内方差。故如想提升系统抽样的精度,需想办法设计一个排序方式,使系统样本群内方差尽可能大,这是为使每一个系统样本都接近理想的群:群内差异大,群间差异小。
由\(\displaystyle{\mathbb{D}(\bar{y}_{srs})=\frac{1-f}{n}S^2}\),结合\(f=\dfrac{n}{N}=\dfrac{1}{k}\),可得
从而只要\(S_{wsy}^2>S^2\),就有\(\mathbb{D}(\bar{y}_{sy})<\mathbb{D}(\bar{y}_{srs})\)。
定理:利用整群抽样的结果,\(\bar{y}_{sy}\)的方差可表示为
\[\mathbb{D}(\bar{y}_{sy})=\frac{S^2}{n}\left(\frac{N-1}{N} \right)[1+(n-1)\rho_{wsy}], \]这里\(\rho_{wsy}\)为群内相关系数,即
\[\rho_{wsy}=\frac{\mathrm{E}(Y_{rj}-\bar{Y})(Y_{ru}-\bar{Y})}{\mathrm{E}(Y_{rj}-\bar{Y})^2}, \]\(\mathrm{E}\)代表所有这种类型的算式的平均值。
定理:利用分层抽样的结果,\(\bar{y}_{sy}\)的方差可表示为
\[\mathbb{D}(\bar{y}_{sy})=\frac{1-f}{n}S_{wst}^2[1+(n-1)\rho_{wst}], \]这里\(S_{wst}^2\)为层内方差,\(\rho_{wst}\)为同一系统样本内对层均值离差的相关系数,有
\[S_{wst}^2=\frac{1}{n(k-1)}\sum_{j=1}^{n}\sum_{r=1}^{k}(y_{rj}-\bar{y}_{\cdot j})^2,\\ \rho_{wst}=\frac{\mathrm{E}(y_{rj}-\bar{y}_{\cdot j})(y_{ru}-\bar{y}_{\cdot u})}{\mathrm{E}(y_{rj}-\bar{y}_{\cdot j})}. \]当\(\rho_{wst}>0\)时,系统抽样的精度低于分层随机抽样;当\(\rho_{wst}<0\)时,系统抽样的精度高于分层随机抽样。
最后,以下定理指出,对同一总体的所有可能排序进行系统抽样,如果样本量\(n\)相等,则对应于\(N\)个单元所有可能排列顺序的\(\mathbb{D}(\bar{y}_{st})\),有
这里\(\mathbb{D}(\bar y)\)是简单随机抽样的样本均值的方差。
不等概系统抽样概述
不等概系统抽样基于\(\mathrm{\pi PS}\)抽样进行。
-
对\(N\)个初级单元的某种确定排列顺序,设第\(i\)个初级单元所包含的次级或基本单元数为\(M_i\),\(\displaystyle{M_0=\sum_{i=1}^{N}M_i}\)。令包含概率为
\[\pi_i=\frac{nM_i}{M_0}, \]这样\(\displaystyle{\sum_{i=1}^{N}\pi_i=n}\)。
-
随机抽取\(r\in[0,1]\),使满足条件
\[\sum_{j=1}^{ik-1}\pi_j<r+k, \\ \sum_{j=1}^{ik}\pi_j\ge r+k.\\ k=0,1,\cdots,n-1 \]的第\(i_0,i_1,\cdots,i_{n-1}\)个初级单元进入样本。
二重抽样
二重抽样概述
二重抽样指在抽样时分两步,每一步抽取一个样本。一般抽取一个较大的样本\(n'\),对其进行调查获取总体的某些辅助信息;再进行第二重抽样,抽取相对小的样本\(n\),但第二重抽样才是主调查。换言之,第一次抽取是为了获得分层资料,调查费用较低,然后利用第一次调查获得的分层资料进行一次小样本的分层抽样。
- 利用简单随机抽样,从总体的\(N\)个单位中,随机抽取第一重样本,样本单位数为\(n'\)。
- 根据已知的分层标志将第一重样本分层,第\(h\)层的单元数为\(n_h'\),令\(w_h'=\dfrac{n_k'}{n'}\),\(h=1,2,\cdots,L\),则\(w'\)是总体层权\(W_h\)的无偏估计。
- 利用分层随机抽样,从第一重样本中抽取第二重样本,样本单位数为\(n\),第\(h\)层样本单位数为\(n_h\),\(n=\displaystyle{\sum_{h=1}^{L}n_h}\)。
注意到二重抽样也是一种两阶段抽样,故两阶段抽样的基本原则仍然适用;而其第一阶段是简单随机抽样,第二阶段是一种分层随机抽样,故在\(w_h'=W_h\)的前提下,分层抽样的结果仍然适用。
在进行下述讨论前,首先规定符号:
-
层数:用\(h\)表示,\(h=1,2,\cdots,L\)。
-
单元数:总体第\(h\)层单元数用\(N_h\)表示,第一重样本第\(h\)层的单元数用\(n_h'\)表示,第二重样本第\(h\)层的单元数用\(n_h\)表示。显然有
\[N=\sum_{h=1}^{L}N_h,\quad n'=\sum_{h=1}^{L}n_h',\quad n=\sum_{h=1}^{L}n_h. \] -
层权与抽样比:总体第\(h\)层的权重为\(W_h=\dfrac{N_h}{N}\),第一重样本第\(h\)层的权重为\(w_h'=\dfrac{n_h'}{n'}\),第二重样本第\(h\)层的抽样比为\(f_{sD}=\dfrac{n_h}{n_h'}\)。
-
相关统计指标:第二重样本第\(h\)层第\(j\)单元观测值为\(y_{hj}\)。
相关统计量:
-
第二重样本的层内均值(可计算):
\[\bar{y}_h=\frac{1}{h}\sum_{j=1}^{n_h}y_{hj}. \] -
总体方差\(S^2\)与第\(h\)层总体方差\(S_h^2\):
\[S^2=\frac{1}{N-1}\sum_{h=1}^{L}\sum_{j=1}^{n_h}(Y_{hj}-\bar{Y})^2,\quad S_h^2=\frac{1}{N_h-1}\sum_{j=1}^{N_h}(Y_{hj}-\bar{Y}_h)^2. \] -
第一重样本第\(h\)层方差\(s_h'^{2}\):
\[s_h'^{2}=\frac{1}{n_h'-1}\sum_{j=1}^{n_h'}(Y_{hj}-\bar{Y}_h)^2. \] -
第二重样本第\(h\)层方差(可计算):
\[s_h^2=\frac{1}{n_h-1}\sum_{j=1}^{n_h}(y_{hj}-\bar{y}_h)^2. \]
总体均值的估计
以下,\(\bar y'\)为第一重抽样的样本均值,为对其进行估计,对第二重样本采用分层随机抽样,则
采用二重分层抽样,对总体均值\(\bar{Y}\)的估计量为:
定理:\(\bar{y}_{stD}\)是\(\bar{Y}\)的无偏估计,即
\[\mathbb{E}(\bar{y}_{stD})=\bar{Y}. \]
此时,第二重样本第\(h\)层样本均值\(\bar{y}_h\)是第一重样本第\(h\)层均值\(\bar{y}_h'\)的无偏估计,则
此处,第三个等式利用\(\mathbb{E}_2(\bar{y}_h)=\bar{y}_h'\)。
定理:\(\bar{y}_{stD}\)的方差为
\[\mathbb{D}(\bar{y}_{stD})=\left(\frac{1}{n'}-\frac{1}{N} \right)S^2+\sum_{h=1}^{L}\frac{W_hS_h^2}{n'}\left(\frac{1}{f_{hD}}-1 \right). \]
此时
第一项有
第二项有
这里,\(\mathbb{E}_1(w_h's_h'^2)=W_hS_h^2\),需要基于\(w_h'\)固定的条件。
定理:为估计\(\mathbb{D}(\bar{y}_{stD})\),其近似无偏估计为
\[v(\bar{y}_{stD})=\sum_{h=1}^{L}\left(\frac{1}{n_h}-\frac{1}{n_h'} \right)w_h'^2s_h^2+\left(\frac{1}{n'}-\frac{1}{N} \right)\sum_{h=1}^{L}w_h'(\bar{y}_h-\bar{y}_{stD})^2. \]当\(\dfrac{n_h}{n_h'}\)和\(\dfrac{n'}{N}\)都可以忽略不计时,上式简化为
\[v(\bar{y}_{stD})\approx \sum_{h=1}^{L}\frac{w_h'^2s_h^2}{n_h}+\frac{1}{n'}\sum_{h=1}^{L}w_h'(\bar{y}_h-\bar{y}_{stD}). \]
样本量分配
假设第一重抽样的单位平均调查费用为\(c_1\),第二重抽样第\(h\)层的平均调查费用为\(c_{2h}\),则费用函数为
定理:在一定的约束下使估计方差最小化,有
\[f_{hD}=S_h\sqrt{\frac{c_1}{c_{2h}\left(S^2-\sum\limits_{h=1}^{L}W_hS_h^2 \right)}},\\ n'=\frac{C_{T}^*}{c_1+\sum\limits_{h=1}^{L}c_{2h}W_hf_{hD}}. \]
二重抽样比估计
在实际工作中,如果辅助变量的信息未知,可以利用二重抽样进行比估计。其步骤为
- 从总体的\(N\)个单位中随机抽取单位数为\(n'\)的第一重样本,仅观察其辅助变量信息,用辅助变量的样本均值\(\bar{x}'=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}x_i'}\)估计总体均值\(\bar{X}\)。
- 从第一重样本中随机抽取单位数为\(n\)的第二重样本,观测其研究变量\(y\)和辅助变量\(x\),计算\(\hat{R}=\dfrac{\bar{y}}{\bar{x}}\),构造比估计。
基于此思想,构造出的比估计为
其相关性质如下:
-
二重抽样比估计\(\bar{y}_{RD}\)是有偏估计,当第二重样本容量\(n\)足够大时,\(\bar{y}_{RD}\)是近似无偏估计,即
\[\mathbb{E}(\bar{y}_{RD})\approx\bar{Y}. \] -
\(\bar{y}_{RD}\)的方差近似为
\[\mathbb{D}(\bar{y}_{RD})\approx\left(\frac{1}{n'}-\frac{1}{N} \right)S_y^2+\left(\frac{1}{n}-\frac{1}{n'} \right)(S_y^2+R^2S_x^2-2RS_{yx}). \]通常\(\dfrac{1}{N}\)可忽略,于是
\[\mathbb{D}(\bar{y}_{RD})\approx\frac{1}{n}S_y^2+\left(\frac{1}{n}-\frac{1}{n'} \right)(R^2S_x^2-2RS_{yx}). \] -
为估计\(\mathbb{D}(\bar{y}_{RD})\),常使用
\[v(\bar{y}_{RD})=\frac{1}{n}s_y^2+\left(\frac{1}{n}-\frac{1}{n'} \right)(\hat{R}^2s_x^2-2\hat{R}s_{yx}). \]
比估计的样本分配问题:由于第二重抽样采用简单随机抽样,故令抽样比为\(f=\dfrac{n}{n'}\),费用函数为
有
捕获再捕获抽样
即标记重捕法,符号规定为:
- \(n_1\):第一次抽样的样本量。
- \(n_2\):第二次抽样的样本量。
- \(m\):第二次捕获带标记的动物数量。
在上述记号下,有偏的比率估计为
比率估计同时也是极大似然估计,其方差估计为
如果样本量较少,\(\hat{N}\)的偏差可能会很大,尤其是\(m=0\)是\(\hat{N}=\infty\)。
Chapman提出一个偏差较小的估计: