【抽样调查】不等概抽样
第5部分 不等概抽样
不等概抽样
等概率抽样和不等概抽样的区别:在等概抽样中,每个总体单元都具有相同的入样概率;不等概抽样赋予每个单元与其规模(或辅助变量)成比例的入样概率,使得大单元入样概率大、小单元入样概率小,然后在估计中采用不同的权数来进行弥补。
- 当总体单元之间差异不大时,简单随机抽样简便、有效。
- 如果总体单元之间差异大时,简单随机抽样的效果不好。
- 如果每个总体单元的入样意愿与其所处的层有关,则无偏估计量会有较大的方差。
不等概抽样的适用情况:
- 抽样单元在总体中所占的地位不一致。
- 调查的总体单元与抽样总体的单元不一致(如调查职工家庭,但抽样单元是职工,可能存在双职工家庭)。
- 不等概抽样可用于改善等概抽样的估计量。
不等概抽样的特点与优缺点:
- 不等概抽样的使用前提时,每个单元必须有确定的入样概率,在抽样设计时就要设定好。
- 优点是提高估计精度,减少抽样误差。
- 缺点是编制抽样框的过程有时要复杂一些。
不等概抽样的分类:
-
放回不等概抽样
每次在总体中,对每个单元按入样概率进行抽样,抽取出来的样本单元放回总体,再进行下一次抽样。
这使得每一次抽样过程都是从同一个总体独立出来的,某个单元可能在样本中多次出现,但此时对这个单元的调查只进行一次,而计算时按抽中次数计算。
典型方式:\(\mathrm{PPS}\)抽样,即与规模大小成比例(probability proportional to size)的抽样,规模的定义可以由多种方式完成。
-
不放回不等该抽样
每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本不放回总体,对总体中剩下的单元进行下一次抽样。抽取出的样本是不独立的。
抽取方法有:逐个抽取法,重抽法,全样本抽取法,系统抽样法。
典型方式:\(\mathrm{\pi PS}\)抽样,假设总体中第\(i\)个单元被包含到样本的概率用\(\pi_i\)表示,若\(\pi_i\)与单元规模大小成比例,则这种抽样方式称为\(\mathrm{\pi PS}\)抽样。
简单的放回不等概抽样
概述
符号定义:
-
要抽取的样本容量\(n\),总体中含有的个体数\(N\)。
-
总体中第\(i\)个单元\(Y_i\)的规模度量\(M_i\)。
-
总体的总规模\(\displaystyle{M_0=\sum_{i=1}^{N}M_i}\)。
-
每次抽样中,\(Y_i\)被抽中的概率\(Z_i\),如果是\(\mathrm{PPS}\)抽样,则有
\[Z_i=\frac{M_i}{M_0}=\frac{M_i}{\sum\limits_{i=1}^{N}M_i}. \]
对总体总值的估计量:汉森-赫维茨(Hansen-Hurwitz)估计量。
如果是\(\mathrm{PPS}\)抽样,则
HH统计量的期望、方差
定理:\(\hat Y_{HH}\)是总体总值\(Y\)的无偏估计量,即
\[\mathbb{E}(\hat {Y}_{HH})=Y. \]
可先计算只抽取一个样本时,\(y_i/Z_i\)的期望,为
再由不放回抽样时每个样本的独立性,有
要注意到每一个\(Z_i\)是与\(Y_i\)相联系的量,因此当实际抽中\(Y_i\)时,可以将其观测值视为\(Y_i/Z_i\),再按照离散分布列,加权计算期望即可。
定理:\(\hat Y_{HH}\)的方差为
\[\mathbb{D}(\hat Y_{HH})=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]
类似地,可以先计算每一个\(y_i/Z_i\)的方差,再由样本间的同分布独立性计算整体方差,为
HH统计量方差的无偏估计
定理:当\(n>1\)时,\(\mathbb{D}(\hat Y_{HH})\)的无偏估计为
\[v(\hat Y_{HH})=\frac{1}{n}\frac{1}{n-1}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2,\\ \mathbb{E}(v(\hat Y_{HH}))=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]
不妨记\(t_i\)为\(Y_i\)的入样次数,则\(\displaystyle{\sum_{i=1}^{N}t_i=n}\),\(t_i\sim B(n, Z_i)\),\((t_i,t_j)\)服从多项分布,且
要证明定理,即证明
注意到
所以
这里\(\displaystyle{\mathbb{E}\left(\frac{y_i}{Z_i} \right)=\mathbb{E}(\hat Y_{HH})=Y}\),于是
原式得证。
推论:如果是\(\mathrm{PPS}\)抽样,则由\(Z_i=\dfrac{M_i}{M_0}\),有
\[v(\hat{Y}_{HH})=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{M_i}-\frac{\hat Y_{HH}}{M_0} \right)^2. \]
放回不等概多阶段抽样
放回不等概整群抽样
在等概率整群抽样中,每一个群被抽中的概率相等,如果每个群规模相等则等概整群抽样的效果较好;如果群的规模不等,则一般使用不等概整群抽样抽取群,按与群规模\(M_i\)成比例的\(\mathrm{PPS}\)抽样,第\(i\)个群的总值为\(\displaystyle{y_i=\sum_{j=1}^{M_i}y_{ij}}\)。
\(\mathrm{PPS}\)总体总值的估计量为
推论:由汉森-赫维茨估计量的性质,有
\(\hat Y\)是\(Y\)的无偏估计。
\(\hat Y\)的方差为
\[\mathbb{D}(\hat Y)=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2=\frac{M_0}{n}\sum_{i=1}^{N}M_i(\bar Y_i-\bar{\bar Y})^2. \]\(\mathbb{D}(\hat Y)\)的无偏估计为
\[v(\hat Y)=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar{y}_i-\bar{\bar y})^2. \]
只需注意到\(\displaystyle{Y=\sum_{i=1}^{N}Y_i}\),再将每一个群视为一个个体,最后取\(\displaystyle{Z_i=\frac{M_i}{M_0}}\)即可。
由上述过程可知,在抽取样本之前,必须获得各群规模\(M_i\)的信息。
放回不等概两阶段抽样
两阶段放回不等概抽样是两阶段整群抽样的推广,先按照放回不等概整群抽样的方式抽中\(n\)个一级单元,对抽中的第\(i\)个单元,再抽取\(m_i\)个二级单元(如果某个初级单元被重复抽中多次,则对其二级单元抽取多个独立样本)。
此时,由于没有对抽中的初级单元作普查,所以先构造初级单元总值\(Y_i\)的无偏估计\(\hat Y_i\)(构造方式不限,故抽样方式也不限),再构造汉森-赫维茨估计量为
推论:由汉森赫维茨估计量的性质以及两阶段抽样的特点,有
\(\hat Y_{HH}\)是\(Y\)的无偏估计。
\(\hat Y_{HH}\)的方差为
\[\mathbb{D}(\hat Y_{HH})=\frac{1}{n}\left[\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i} \right]. \]\(\mathbb{D}(\hat Y_{HH})\)的无偏估计为
\[v(\hat Y_{HH})=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i}-\hat Y_{HH} \right)^2. \]
由于\(\hat {Y}_i\)是\(Y_i\)的无偏估计,所以\(\displaystyle{\mathbb{E}_2\left(\frac{\hat Y_i}{Z_i} \right)=\frac{Y_i}{Z_i}}\),即
并且可得两个关键等式:
由两阶段抽样定理,与第一阶段简单不等概抽样的性质,有
这里,前一部分是汉森-赫维茨估计量的方差,后一部分是汉森-赫维茨估计量的均值。
对于\(v(\hat Y_{HH})\),在下面的\((*)\)式中将两个关键等式代入,可得
对第一项,有
后一个等号实际上是从\(\displaystyle{\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}}\)中分离出入样概率\(Z_i\)后,剩下的部分视为样本观测值,从而\(\displaystyle{\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}}\)成为此式中汉森-赫维茨统计量所估计的“总体总值”。同时,可以注意到此部分是\(\mathbb{D}(\hat Y_{HH})\)的后一部分。
对第二项,用同样的分离方式,可得到
而从第三项,因\(\displaystyle{\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)=Y}\),结合\(\displaystyle{\sum_{i=1}^{N}Y_i=Y}\),\(\displaystyle{\sum_{i=1}^{N}Z_i=1}\),有
于是第二项与第三项相减,恰好得到
这恰好是\(\mathbb{D}(\hat Y_{HH})\)的前一部分。综上,就得到
两阶段放回不等概抽样中自加权统计量的设计
依前述,在两阶段放回不等概抽样中,有
如果第二阶段采用简单随机抽样,则
如果希望\(\hat Y_{HH}\)是自加权的(即统计量是样本总值或样本均值的一个常数倍),则需要\(\displaystyle{\frac{M_i}{nm_iZ_i}=K}\),这里\(K\)是常数,更具体地有\(K\equiv\dfrac{1}{f_0}\),\(f_0\)为总体中任意一个二级单元被抽中的概率,即
对\(\mathrm{PPS}\)抽样,有\(Z_i=M_i/M_0\),所以只要\(m_i=m\)为常数,\(\dfrac{M_i}{nm_iZ_i}=\dfrac{M_0}{nm}\)就是常数,此时
多阶段放回不等概抽样概述
多阶段放回不等概抽样的方式一般是:对除最后一阶段的每一阶段,采用与单元大小成比例的不等概抽样(\(\mathrm{PPS}\)抽样),对最后一阶段的抽样采用等概抽样。
以三阶段抽样为例:
- 总体有\(N\)个初级单元,第\(i\)个初级单元被抽中的概率为\(Z_i\),\(\displaystyle{\sum_{i=1}^{N}Z_i=1}\)。
- 第\(i\)个初级单元有\(M_i\)个二级单元,第\(i,j\)个二级单元被抽中的概率为\(Z_{ij}\),\(\displaystyle{\sum_{j=1}^{M_i}Z_{ji}}=1\)。
- 第\(i,j\)个二级单元有\(K_{ij}\)个三级单元,第\(i,j,u\)个三级单元被抽中的概率为\(Z_{iju}\),\(\displaystyle{\sum_{u=1}^{K_{ij}}}Z_{iju}=1\)。
- 各阶样本量分别为\(n,m,k\)(定值,与单元无关)
此时,对总体总值\(Y\)的无偏估计为
定义\(\displaystyle{Y_{ij}=\sum_{u=1}^{K_{ij}}Y_{iju}}\),\(\displaystyle{Y_{i}=\sum_{j=1}^{M_i}Y_{ij}=\sum_{j=1}^{M_i}\sum_{u=1}^{K_{ij}}Y_{iju}}\),则\(\hat Y\)的方差为
定义\(\displaystyle{\hat Y_i=\frac{1}{Z_i}\left[\frac{1}{m}\sum_{j=1}^{m}\frac{1}{Z_{ij}}\left(\frac{1}{k}\sum_{u=1}^{k}\frac{y_{iju}}{Z_{iju}} \right) \right]}\),\(\mathbb{D}(\hat Y)\)的无偏估计为
为使\(\hat Y\)是自加权的,使前两阶段抽样采用\(\mathrm{PPS}\)抽样,最后一阶段按放回的等概率抽样进行,则此时
不放回不等概抽样
概述
在不放回不等概抽样中,每个单元\(Y_i\)的入样概率为\(\pi_i\),任意两个单元\(Y_i,Y_j\)同时入样的概率为\(\pi_{ij}\),统称为包含概率。应注意\(\pi_i\ne Z_i\),仅当\(n=1\)时\(\pi_i=Z_i\)。
第一个式子代表所有单元的入样概率之和为\(n\),这是因为一共需要抽取\(n\)个样本。
第二个式子代表,\(Y_i\)和其他所有单元一起入样的概率之和为\((n-1)\pi_i\),可以将其看作两个独立事件,其一是\(Y_i\)入样,概率为\(\pi_i\);其二是在剩余的单元中抽取\(n-1\)个样本,故入样概率之和是\(n-1\)。
第三个式子代表,所有两个单元一起入样的概率之和为\(\displaystyle{\frac{1}{2}n(n-1)}\),只需对第二个式子关于\(i\)求和再除以\(2\)去重。
严格的\(\mathrm{\pi PS}\)抽样:如果每个单元的入样概率与其大小或规模\(M_i\)严格成正比,即\(\displaystyle{Z_i=\frac{M_i}{M_0}}\),\(\pi_i=nZ_i\),则这种抽样称为严格的\(\mathrm{\pi PS}\)抽样。
- 只有在\(n=2\)时,严格的\(\mathrm{\pi PS}\)抽样才有一些简单实用的方法。
- 对于\(n>2\)时,可以通过分层,在每层中进行严格的\(n=2\)的\(\mathrm{\pi PS}\)抽样。
HT估计量的期望、方差
对于不放回不等概抽样,对总体总值\(Y\)的估计采用霍维茨-汤普森(Horvitz-Thompson)估计量:
这里\(\alpha_i\)是代表\(Y_i\)入样的示性变量,类似第一部分中对简单随机抽样的讨论,有
定理:如果\(\pi_i>0,i=1,2,\cdots ,N\),则
\(\hat Y_{HT}\)是\(Y\)的无偏估计,\(\mathbb{E}(\hat Y_{HT})=Y\)。
\(\hat Y_{HT}\)的方差为
\[\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_{i}Y_j. \]当\(n\)固定时,有
\[\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2. \]
注意到这里只有\(\alpha_i\)是随机变量,且\(\mathbb{E}(\alpha_i)=\pi_i\),所以
对于方差,有
特别当\(n\)固定时,对给定的\(i\),
于是
这说明,要使估计量的方差\(\mathbb{D}(\hat Y_{HT})\)小,应使\(\displaystyle{\frac{Y_i}{\pi_i}}\)之间的差异尽可能小。
HT统计量方差的无偏估计
定理:如果\(\pi_i>0\),\(\pi_{ij}>0\),则\(\mathbb{D}(\hat Y_{HT})\)的无偏估计为
\[v(\hat Y_{HT})=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}y_iy_j. \]如果\(n\)固定,则\(v(\hat Y_{HT})\)也可以用
\[v_{YGS}(\hat Y_{HT})=\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2. \]当\(n=2\)时,\(v_{YHS}(\hat Y_{HT})>0\),否则无论是哪一种无偏估计,都有可能出现负值。
类似科恩菲尔德法,只需将\(y_i\)改成\(\alpha_iY_i\),并利用\(\alpha_i\)的相关性质:\(\displaystyle{\mathbb{E}(\alpha_i)=\pi_i,\mathbb{E}(\alpha_i\alpha_j)=\pi_{ij}}\)即可。
当\(n\)固定时,类似有
\(\mathrm{\pi PS}\)抽样方法
常用的\(\mathrm{\pi PS}\)方法有:布鲁尔方法,水野法,不严格\(\mathrm{\pi PS}\)抽样法。
-
布鲁尔(Brewer)方法
要求:对总体所有的单元,都有\(Z_i\le \dfrac{1}{2}\),只抽取\(n=2\)个单元。
步骤:按与\(\displaystyle{\frac{Z_i(1-Z_i)}{1-2Z_i}}\)成比例的概率抽取第一个单元\(j\),再按与\(\dfrac{Z_i}{1-Z_j}\)成比例的概率抽取第二个单元。
相关计算:
\[\pi_i=2Z_i,\quad \pi_{ij}=\frac{4Z_iZ_j(1-Z_i-Z_j)}{(1-2Z_i)(1-2Z_j)\left(1+\sum\limits_{i=1}^{N}\dfrac{Z_i}{1-2Z_i} \right)}.\\ \hat Y_{B}=\frac{y_i}{\pi_i}+\frac{y_j}{\pi_j}=\frac{1}{2}\left(\frac{y_i}{Z_i}+\frac{y_j}{Z_j} \right),\\ v_{YGS}(\hat Y_{B})=\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2. \] -
水野(Midzunol)法
要求:每个单元的大小满足\(M_i\ge\dfrac{(n-1)M_0}{n(N-1)}\),抽取\(n>2\)个单元。
步骤:以概率\(Z_i^*=\dfrac{n(N-1)Z_i}{N-n}-\dfrac{n-1}{N-n}\)抽取第一个样本单元,在剩下的\(N-1\)个单元中不放回等概率抽取\(n-1\)个样本单元。
相关计算:
\[\pi_i=nZ_i,\\ \pi_{ij}=\frac{n-1}{N-1}\left[\frac{N-n}{N-2}(Z_i^*+Z_j^*)+\frac{n-2}{N-n} \right]. \] -
非严格\(\mathrm{\pi PS}\)抽样——耶茨-格伦迪(Yates-Grundy)逐个抽取法
要求:\(n\)是不固定的而是随机的;或是非严格不放回的;或是\(\pi_i\approx nZ_i\)的。
步骤:以\(Z_i\)抽取第一个样本单元,再以\(\dfrac{Z_i}{1-Z_1}\)抽取第二个样本单元,再以\(\dfrac{Z_i}{1-Z_1-Z_2}\)抽取第三个样本单元……以此类推,直到抽出\(n\)个样本单元。
相关计算:Yates-Grundy逐个抽取法常常不采用HT估计量,而使用Raj估计量。设\(y_1,\cdots,y_n\)为按抽中顺序排列的样本单元指标值,\(Z_1,\cdots,Z_n\)为对应的抽中概率,令
\[\left\{\begin{array}{} t_1=\dfrac{y_1}{Z_1},\\ t_2=y_1+\dfrac{y_2}{Z_2}(1-Z_1), \\ \cdots \\ t_n=y_1+y_2+\cdots+y_{n-1}+\dfrac{y_n}{Z_n}(1-Z_1-Z_2-\cdots-Z_{n-1}). \end{array}\right. \\ \hat Y_{\text{Raj}}=\frac{1}{n}\sum_{i=1}^{n}t_i,\\ v(\hat Y_{\text{Raj}})=\frac{1}{n(n-1)}\sum_{i=1}^{n}(t_i-\hat Y_{\text{Raj}})^2. \]
两阶段不放回不等概抽样概述
抽样方式:在两阶段抽样中,第一阶段采用不放回不等概方法抽取初级单元\(\mathrm{PSU}\),第\(i\)个\(\mathrm{PSU}\)的包含概率为\(\pi_i\),第\(i\)个和第\(j\)个\(\mathrm{PSU}\)同时入样的包含概率为\(\pi_{ij}\);第二阶段采用简单随机抽样,对不同\(\mathrm{PSU}\)的抽样相互独立,则总体总值\(Y\)的HT估计量为
且\(\hat Y_i\)是\(Y_i\)的无偏估计,\(\hat Y_{HT}\)是\(Y\)的无偏估计。
定理:
\(\mathbb{E}(\hat Y_{HT})=Y\)。
\(\displaystyle{\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_iY_j+\sum_{i=1}^{N}\frac{\mathbb{D}(\hat Y_i)}{\pi_i}}\)。
当\(n\)固定时,\(\displaystyle{\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2+\sum_{i=1}^{N}\frac{\mathbb{D}(\hat Y_i)}{\pi_i}}\)。
\(\mathbb{D}(\hat Y_{HT})\)的无偏估计为
\[v(\hat Y_{HT})=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}\hat Y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_{ij}\pi_i\pi_j}\hat Y_i\hat Y_j+\sum_{i=1}^{n}\frac{v(\hat Y_i)}{\pi_i},\\ v_{YGS}(\hat Y_{HT})=\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{\hat Y_i}{\pi_i}-\frac{\hat Y_j}{\pi_j} \right)^2+\sum_{i=1}^{n}\frac{v(\hat Y_i)}{\pi_i}. \]