【抽样调查】不等概抽样

第5部分不等概抽样

第5部分不等概抽样

不等概抽样

等概率抽样和不等概抽样的区别：在等概抽样中，每个总体单元都具有相同的入样概率；不等概抽样赋予每个单元与其规模（或辅助变量）成比例的入样概率，使得大单元入样概率大、小单元入样概率小，然后在估计中采用不同的权数来进行弥补。

当总体单元之间差异不大时，简单随机抽样简便、有效。
如果总体单元之间差异大时，简单随机抽样的效果不好。
如果每个总体单元的入样意愿与其所处的层有关，则无偏估计量会有较大的方差。

不等概抽样的适用情况：

抽样单元在总体中所占的地位不一致。
调查的总体单元与抽样总体的单元不一致（如调查职工家庭，但抽样单元是职工，可能存在双职工家庭）。
不等概抽样可用于改善等概抽样的估计量。

不等概抽样的特点与优缺点：

不等概抽样的使用前提时，每个单元必须有确定的入样概率，在抽样设计时就要设定好。
优点是提高估计精度，减少抽样误差。
缺点是编制抽样框的过程有时要复杂一些。

不等概抽样的分类：

放回不等概抽样

每次在总体中，对每个单元按入样概率进行抽样，抽取出来的样本单元放回总体，再进行下一次抽样。

这使得每一次抽样过程都是从同一个总体独立出来的，某个单元可能在样本中多次出现，但此时对这个单元的调查只进行一次，而计算时按抽中次数计算。

典型方式：\(\mathrm{PPS}\)抽样，即与规模大小成比例(probability proportional to size)的抽样，规模的定义可以由多种方式完成。
不放回不等该抽样

每次在总体中对每个单元按入样概率进行抽样，抽取出来的样本不放回总体，对总体中剩下的单元进行下一次抽样。抽取出的样本是不独立的。

抽取方法有：逐个抽取法，重抽法，全样本抽取法，系统抽样法。

典型方式：\(\mathrm{\pi PS}\)抽样，假设总体中第\(i\)个单元被包含到样本的概率用\(\pi_i\)表示，若\(\pi_i\)与单元规模大小成比例，则这种抽样方式称为\(\mathrm{\pi PS}\)抽样。

简单的放回不等概抽样

概述

符号定义：

要抽取的样本容量\(n\)，总体中含有的个体数\(N\)。
总体中第\(i\)个单元\(Y_i\)的规模度量\(M_i\)。
总体的总规模\(\displaystyle{M_0=\sum_{i=1}^{N}M_i}\)。
每次抽样中，\(Y_i\)被抽中的概率\(Z_i\)，如果是\(\mathrm{PPS}\)抽样，则有

\[Z_i=\frac{M_i}{M_0}=\frac{M_i}{\sum\limits_{i=1}^{N}M_i}. \]

对总体总值的估计量：汉森-赫维茨(Hansen-Hurwitz)估计量。

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}. \]

如果是\(\mathrm{PPS}\)抽样，则

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}=\frac{M_0}{n}\sum_{i=1}^{n}\frac{y_i}{M_i}. \]

HH统计量的期望、方差

定理：\(\hat Y_{HH}\)是总体总值\(Y\)的无偏估计量，即

\[\mathbb{E}(\hat {Y}_{HH})=Y. \]

可先计算只抽取一个样本时，\(y_i/Z_i\)的期望，为

\[\mathbb{E}\left(\frac{y_i}{Z_i}\right)=\sum_{i=1}^{N}Z_i\frac{Y_i}{Z_i}=Y, \]

再由不放回抽样时每个样本的独立性，有

\[\mathbb{E}(\hat{Y}_{HH})=\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}\left(\frac{y_i}{Z_i}\right)=\frac{1}{n}\sum_{i=1}^{n}Y=Y. \]

要注意到每一个\(Z_i\)是与\(Y_i\)相联系的量，因此当实际抽中\(Y_i\)时，可以将其观测值视为\(Y_i/Z_i\)，再按照离散分布列，加权计算期望即可。

定理：\(\hat Y_{HH}\)的方差为

\[\mathbb{D}(\hat Y_{HH})=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]

类似地，可以先计算每一个\(y_i/Z_i\)的方差，再由样本间的同分布独立性计算整体方差，为

\[\mathbb{D}\left(\frac{y_i}{Z_i} \right)=\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2,\\ \mathbb{D}(\hat Y_{HH})=\mathbb{D}\left(\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i} \right)=\frac{1}{n}\mathbb{D}\left(\frac{y_i}{Z_i} \right)=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]

HH统计量方差的无偏估计

定理：当\(n>1\)时，\(\mathbb{D}(\hat Y_{HH})\)的无偏估计为

\[v(\hat Y_{HH})=\frac{1}{n}\frac{1}{n-1}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2,\\ \mathbb{E}(v(\hat Y_{HH}))=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \]

不妨记\(t_i\)为\(Y_i\)的入样次数，则\(\displaystyle{\sum_{i=1}^{N}t_i=n}\)，\(t_i\sim B(n, Z_i)\)，\((t_i,t_j)\)服从多项分布，且

\[\mathbb{E}(t_i)=nZ_i,\quad \mathbb{D}(t_i)=nZ_i(1-Z_i),\\ \mathbb{E}(t_it_j)=n(n-1)Z_iZ_j,\\ \mathrm{cov}(t_i,t_j)=-nZ_iZ_j. \]

要证明定理，即证明

\[\mathbb{E}\left[\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2 \right]=(n-1)\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2=n(n-1)\mathbb{D}(\hat{Y}_{HH}). \]

注意到

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}, \]

所以

\[\begin{aligned} \sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2=\sum_{i=1}^{n}\left(\frac{y_i}{Z_i} \right)^2-n\hat Y_{HH}^2=\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2-n(\hat Y_{HH}-Y)^2 \end{aligned}, \]

这里\(\displaystyle{\mathbb{E}\left(\frac{y_i}{Z_i} \right)=\mathbb{E}(\hat Y_{HH})=Y}\)，于是

\[\begin{aligned} \mathbb{E}\left[\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2 \right]&=\mathbb{E}\left[\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2-n(\hat Y_{HH}-Y)^2 \right]\\ &=\mathbb{E}\left[\sum_{i=1}^{N}t_i\left(\frac{y_i}{Z_i}-Y \right)^2 \right]-n\mathbb{D}(\hat Y_{HH})\\ &=\sum_{i=1}^{N}\mathbb{E}(t_i)\left(\frac{y_i}{Z_i}-Y \right)^2-n\mathbb{D}(\hat Y_{HH})\\ &=n\sum_{i=1}^{N}Z_i\left(\frac{y_i}{Z_i}-Y \right)^2-n\mathbb{D}(\hat{Y}_{HH})\\ &=n^2\mathbb{D}(\hat{Y}_{HH})-n\mathbb{D}(\hat{Y}_{HH})\\ &=n(n-1)\mathbb{D}(\hat{Y}_{HH}), \end{aligned} \]

原式得证。

推论：如果是\(\mathrm{PPS}\)抽样，则由\(Z_i=\dfrac{M_i}{M_0}\)，有

\[v(\hat{Y}_{HH})=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-\hat Y_{HH} \right)^2=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{M_i}-\frac{\hat Y_{HH}}{M_0} \right)^2. \]

放回不等概多阶段抽样

放回不等概整群抽样

在等概率整群抽样中，每一个群被抽中的概率相等，如果每个群规模相等则等概整群抽样的效果较好；如果群的规模不等，则一般使用不等概整群抽样抽取群，按与群规模\(M_i\)成比例的\(\mathrm{PPS}\)抽样，第\(i\)个群的总值为\(\displaystyle{y_i=\sum_{j=1}^{M_i}y_{ij}}\)。

\(\mathrm{PPS}\)总体总值的估计量为

\[\hat Y=\frac{1}{n}\sum_{i=1}^{n}\frac{y_i}{Z_i}=\frac{M_0}{n}\sum_{i=1}^{n}\frac{y_i}{M_i}=M_0\bar{\bar y}. \]

推论：由汉森-赫维茨估计量的性质，有

\(\hat Y\)是\(Y\)的无偏估计。

\(\hat Y\)的方差为

\[\mathbb{D}(\hat Y)=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2=\frac{M_0}{n}\sum_{i=1}^{N}M_i(\bar Y_i-\bar{\bar Y})^2. \]

\(\mathbb{D}(\hat Y)\)的无偏估计为

\[v(\hat Y)=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{y_i}{Z_i}-Y \right)^2=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar{y}_i-\bar{\bar y})^2. \]

只需注意到\(\displaystyle{Y=\sum_{i=1}^{N}Y_i}\)，再将每一个群视为一个个体，最后取\(\displaystyle{Z_i=\frac{M_i}{M_0}}\)即可。

由上述过程可知，在抽取样本之前，必须获得各群规模\(M_i\)的信息。

放回不等概两阶段抽样

两阶段放回不等概抽样是两阶段整群抽样的推广，先按照放回不等概整群抽样的方式抽中\(n\)个一级单元，对抽中的第\(i\)个单元，再抽取\(m_i\)个二级单元（如果某个初级单元被重复抽中多次，则对其二级单元抽取多个独立样本）。

此时，由于没有对抽中的初级单元作普查，所以先构造初级单元总值\(Y_i\)的无偏估计\(\hat Y_i\)（构造方式不限，故抽样方式也不限），再构造汉森-赫维茨估计量为

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{\hat Y_i}{Z_i}. \]

推论：由汉森赫维茨估计量的性质以及两阶段抽样的特点，有

\(\hat Y_{HH}\)是\(Y\)的无偏估计。

\(\hat Y_{HH}\)的方差为

\[\mathbb{D}(\hat Y_{HH})=\frac{1}{n}\left[\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i} \right]. \]

\(\mathbb{D}(\hat Y_{HH})\)的无偏估计为

\[v(\hat Y_{HH})=\frac{1}{n(n-1)}\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i}-\hat Y_{HH} \right)^2. \]

由于\(\hat {Y}_i\)是\(Y_i\)的无偏估计，所以\(\displaystyle{\mathbb{E}_2\left(\frac{\hat Y_i}{Z_i} \right)=\frac{Y_i}{Z_i}}\)，即

\[\mathbb{E}(\hat Y_{HH})=\mathbb{E}_1\left[\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}_2\left(\frac{\hat Y_i}{Z_i}\right)\right]=\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)=Y. \]

并且可得两个关键等式：

\[\mathbb{E}_2(\hat Y_{HH})=\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i},\quad \mathbb{D}_2(\hat Y_{HH})=\frac{1}{n^2}\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}, \]

由两阶段抽样定理，与第一阶段简单不等概抽样的性质，有

\[\begin{aligned} \mathbb{D}(\hat Y_{HH})&=\mathbb{D}_1\mathbb{E}_2(\hat Y_{HH})+\mathbb{E}_1\mathbb{D}_2(\hat Y_{HH})\\ &=\mathbb{D}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)+\mathbb{E}_1\left(\frac{1}{n^2}\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2} \right)\\ &=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+\frac{1}{n}\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}. \end{aligned} \]

这里，前一部分是汉森-赫维茨估计量的方差，后一部分是汉森-赫维茨估计量的均值。

对于\(v(\hat Y_{HH})\)，在下面的\((*)\)式中将两个关键等式代入，可得

\[\begin{aligned} \mathbb{E}(v(\hat Y_{HH}))&=\frac{1}{n(n-1)}\mathbb{E}_1\mathbb{E}_2\left[\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i}-\hat Y_{HH} \right)^2 \right]\\ &=\frac{1}{n(n-1)}\mathbb{E}_1\mathbb{E}_2\left[\sum_{i=1}^{n}\left(\frac{\hat Y_i}{Z_i} \right)^2-n(\hat Y_{HH}^2) \right]\\ &=\frac{1}{n(n-1)}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)+[\mathbb{E}_2(\hat Y_i)]^2}{Z_i^2}-n\{\mathbb{D}_2(\hat Y_{HH})+[\mathbb{E}_2(\hat Y_{HH}) ]^2 \} \right]\\ &\stackrel{*}{=}\frac{1}{n(n-1)}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}+\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2}-\frac{1}{n}\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}-\frac{1}{n}\left(\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right]\\ &=\frac{1}{n^2}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2} \right]+ \frac{1}{n-1}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2} \right)-\frac{1}{n-1}\mathbb{E}_1\left[\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right] \end{aligned} \]

对第一项，有

\[\frac{1}{n^2}\mathbb{E}_1\left[\sum_{i=1}^{n}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2} \right]=\frac{1}{n}\mathbb{E}_1\left[\frac{1}{n}\sum_{i=1}^{n}\frac{\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}}{Z_i} \right]=\frac{1}{n}\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}, \]

后一个等号实际上是从\(\displaystyle{\frac{\mathbb{D}_2(\hat Y_i)}{Z_i^2}}\)中分离出入样概率\(Z_i\)后，剩下的部分视为样本观测值，从而\(\displaystyle{\sum_{i=1}^{N}\frac{\mathbb{D}_2(\hat Y_i)}{Z_i}}\)成为此式中汉森-赫维茨统计量所估计的“总体总值”。同时，可以注意到此部分是\(\mathbb{D}(\hat Y_{HH})\)的后一部分。

对第二项，用同样的分离方式，可得到

\[\frac{1}{n-1}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2}\right)=\frac{1}{n-1}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}, \]

而从第三项，因\(\displaystyle{\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)=Y}\)，结合\(\displaystyle{\sum_{i=1}^{N}Y_i=Y}\)，\(\displaystyle{\sum_{i=1}^{N}Z_i=1}\)，有

\[\begin{aligned} \frac{1}{n-1}\mathbb{E}_1\left[\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right]&=\frac{1}{n-1}\left[\mathbb{D}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)+Y^2 \right]\\ &=\frac{1}{n-1}\left[\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2+Y^2 \right]\\ &=\frac{1}{n(n-1)}\sum_{i=1}^{N}\left(\frac{Y_i^2}{Z_i}-2YY_i+Z_iY^2 +nY^2\right)\\ &=\frac{1}{n(n-1)}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i^2}+\frac{1}{n}Y^2 \end{aligned} \]

于是第二项与第三项相减，恰好得到

\[\begin{aligned} &\quad \frac{1}{n-1}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i^2}{Z_i^2}\right)-\frac{1}{n-1}\mathbb{E}_1\left[\left(\frac{1}{n}\sum_{i=1}^{n}\frac{Y_i}{Z_i} \right)^2 \right]\\ &=\frac{1}{n-1}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-\frac{1}{n(n-1)}\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-\frac{1}{n}Y^2\\ &=\frac{1}{n}\left(\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-Y^2 \right)\\ &=\frac{1}{n}\sum_{i=1}^{N}Z_i\left(\frac{Y_i}{Z_i}-Y \right)^2. \end{aligned} \]

这恰好是\(\mathbb{D}(\hat Y_{HH})\)的前一部分。综上，就得到

\[\mathbb{E}(v(\hat Y_{HH}))=\mathbb{D}(\hat Y_{HH}). \]

两阶段放回不等概抽样中自加权统计量的设计

依前述，在两阶段放回不等概抽样中，有

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{\hat Y_{i}}{Z_i}, \]

如果第二阶段采用简单随机抽样，则

\[\hat Y_{HH}=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{Z_i}\frac{M_i}{m_i}\sum_{j=1}^{m_i}y_{ij}, \]

如果希望\(\hat Y_{HH}\)是自加权的（即统计量是样本总值或样本均值的一个常数倍），则需要\(\displaystyle{\frac{M_i}{nm_iZ_i}=K}\)，这里\(K\)是常数，更具体地有\(K\equiv\dfrac{1}{f_0}\)，\(f_0\)为总体中任意一个二级单元被抽中的概率，即

\[f_0=nZ_i\frac{m_i}{M_i}:=nZ_if_{2i}. \]

对\(\mathrm{PPS}\)抽样，有\(Z_i=M_i/M_0\)，所以只要\(m_i=m\)为常数，\(\dfrac{M_i}{nm_iZ_i}=\dfrac{M_0}{nm}\)就是常数，此时

\[\hat Y_{\mathrm{PPS}}=\frac{M_0}{nm}\sum_{i=1}^{n}\sum_{j=1}^{m}y_{ij},\\ v(\hat Y_{\mathrm{PPS}})=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar y_i-\bar{\bar y})^2. \]

多阶段放回不等概抽样概述

多阶段放回不等概抽样的方式一般是：对除最后一阶段的每一阶段，采用与单元大小成比例的不等概抽样（\(\mathrm{PPS}\)抽样），对最后一阶段的抽样采用等概抽样。

以三阶段抽样为例：

总体有\(N\)个初级单元，第\(i\)个初级单元被抽中的概率为\(Z_i\)，\(\displaystyle{\sum_{i=1}^{N}Z_i=1}\)。
第\(i\)个初级单元有\(M_i\)个二级单元，第\(i,j\)个二级单元被抽中的概率为\(Z_{ij}\)，\(\displaystyle{\sum_{j=1}^{M_i}Z_{ji}}=1\)。
第\(i,j\)个二级单元有\(K_{ij}\)个三级单元，第\(i,j,u\)个三级单元被抽中的概率为\(Z_{iju}\)，\(\displaystyle{\sum_{u=1}^{K_{ij}}}Z_{iju}=1\)。
各阶样本量分别为\(n,m,k\)（定值，与单元无关）

此时，对总体总值\(Y\)的无偏估计为

\[\hat Y=\frac{1}{nmk}\sum_{i=1}^{n}\frac{1}{Z_i}\sum_{j=1}^{M_i}\frac{1}{Z_{ij}}\sum_{u=1}^{K_{ij}}\frac{1}{Z_{iju}}\cdot y_{iju}. \]

定义\(\displaystyle{Y_{ij}=\sum_{u=1}^{K_{ij}}Y_{iju}}\)，\(\displaystyle{Y_{i}=\sum_{j=1}^{M_i}Y_{ij}=\sum_{j=1}^{M_i}\sum_{u=1}^{K_{ij}}Y_{iju}}\)，则\(\hat Y\)的方差为

\[\begin{aligned} \mathbb{D}(\hat Y)&=\frac{1}{n}\left(\sum_{i=1}^{N}\frac{Y_i^2}{Z_i}-Y^2 \right)\\ &\quad+\frac{1}{nm}\sum_{i=1}^{N}\frac{1}{Z_i}\left(\sum_{j=1}^{M_i}\frac{Y_{ij}^2}{Z_{ij}}-Y_{i}^2 \right)\\ &\qquad+\frac{1}{nmk}\sum_{i=1}^{N}\frac{1}{Z_i}\sum_{j=1}^{M_i}\frac{1}{Z_{ij}}\left(\sum_{u=1}^{K_{ij}}\frac{Y_{iju}^2}{Z_{iju}}-Y_{ij}^2 \right). \end{aligned} \]

定义\(\displaystyle{\hat Y_i=\frac{1}{Z_i}\left[\frac{1}{m}\sum_{j=1}^{m}\frac{1}{Z_{ij}}\left(\frac{1}{k}\sum_{u=1}^{k}\frac{y_{iju}}{Z_{iju}} \right) \right]}\)，\(\mathbb{D}(\hat Y)\)的无偏估计为

\[v(\hat Y)=\frac{1}{n(n-1)}\sum_{i=1}^{n}(\hat Y_{i}-\hat Y)^2, \]

为使\(\hat Y\)是自加权的，使前两阶段抽样采用\(\mathrm{PPS}\)抽样，最后一阶段按放回的等概率抽样进行，则此时

\[Z_i=\frac{\sum\limits_{j=1}^{M_i}K_{ij}}{\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{M_i}K_{ij}}=\frac{\sum\limits_{j=1}^{M_i}K_{ij}}{M_0},\quad Z_{ij}=\frac{K_{ij}}{\sum\limits_{j=1}^{M_i}K_{ij}},\quad Z_{iju}=\frac{1}{K_{ij}},\\ \hat Y=\frac{M_0}{nmk}\sum_{i=1}^{n}\sum_{j=1}^{m}\sum_{u=1}^{k}y_{iju}=M_0\bar{\bar{\bar y}},\\ v(\hat Y)=\frac{M_0^2}{n(n-1)}\sum_{i=1}^{n}(\bar{\bar y}_i-\bar{\bar{\bar y}})^2. \]

不放回不等概抽样

概述

在不放回不等概抽样中，每个单元\(Y_i\)的入样概率为\(\pi_i\)，任意两个单元\(Y_i,Y_j\)同时入样的概率为\(\pi_{ij}\)，统称为包含概率。应注意\(\pi_i\ne Z_i\)，仅当\(n=1\)时\(\pi_i=Z_i\)。

\[\sum_{i=1}^{N}\pi_i=n,\\ \sum_{j=1,j\ne i}^{N}\pi_{ij}=(n-1)\pi_i,\\ \sum_{i=1}^{N}\sum_{j>i}^{N}\pi_{ij}=\frac{1}{2}n(n-1). \]

第一个式子代表所有单元的入样概率之和为\(n\)，这是因为一共需要抽取\(n\)个样本。

第二个式子代表，\(Y_i\)和其他所有单元一起入样的概率之和为\((n-1)\pi_i\)，可以将其看作两个独立事件，其一是\(Y_i\)入样，概率为\(\pi_i\)；其二是在剩余的单元中抽取\(n-1\)个样本，故入样概率之和是\(n-1\)。

第三个式子代表，所有两个单元一起入样的概率之和为\(\displaystyle{\frac{1}{2}n(n-1)}\)，只需对第二个式子关于\(i\)求和再除以\(2\)去重。

严格的\(\mathrm{\pi PS}\)抽样：如果每个单元的入样概率与其大小或规模\(M_i\)严格成正比，即\(\displaystyle{Z_i=\frac{M_i}{M_0}}\)，\(\pi_i=nZ_i\)，则这种抽样称为严格的\(\mathrm{\pi PS}\)抽样。

只有在\(n=2\)时，严格的\(\mathrm{\pi PS}\)抽样才有一些简单实用的方法。
对于\(n>2\)时，可以通过分层，在每层中进行严格的\(n=2\)的\(\mathrm{\pi PS}\)抽样。

HT估计量的期望、方差

对于不放回不等概抽样，对总体总值\(Y\)的估计采用霍维茨-汤普森(Horvitz-Thompson)估计量：

\[\hat Y_{HT}=\sum_{i=1}^{n}\frac{y_i}{\pi_i}=\sum_{i=1}^{N}\alpha_i\frac{Y_i}{\pi_i}. \]

这里\(\alpha_i\)是代表\(Y_i\)入样的示性变量，类似第一部分中对简单随机抽样的讨论，有

\[\mathbb{E}(\alpha_i)=\pi_i,\quad \mathbb{D}(\alpha_i)=\pi_i(1-\pi_i),\\ \mathbb{E}(\alpha_i\alpha_j)=\pi_{ij},\\ \mathrm{cov}(\alpha_i,\alpha_j)=\mathbb{E}(\alpha_i\alpha_j)-\mathbb{E}(\alpha_i)\mathbb{E}(\alpha_j)=\pi_{ij}-\pi_i\pi_j. \]

定理：如果\(\pi_i>0,i=1,2,\cdots ,N\)，则

\(\hat Y_{HT}\)是\(Y\)的无偏估计，\(\mathbb{E}(\hat Y_{HT})=Y\)。

\(\hat Y_{HT}\)的方差为

\[\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_{i}Y_j. \]
当\(n\)固定时，有

\[\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2. \]

注意到这里只有\(\alpha_i\)是随机变量，且\(\mathbb{E}(\alpha_i)=\pi_i\)，所以

\[\mathbb{E}(\hat Y_{HT})=\sum_{i=1}^{N}\mathbb{E}(\alpha_i)\frac{Y_i}{\pi_i}=\sum_{i=1}^{N}Y_i=Y. \]

对于方差，有

\[\begin{aligned} \mathbb{D}(\hat Y_{HT})&=\mathbb{D}\left(\sum_{i=1}^{N}\alpha_i\frac{Y_i}{\pi_i} \right)\\ &=\sum_{i=1}^{N}\frac{Y_i^2\mathbb{D}(\alpha_i)}{\pi_i^2}+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{Y_iY_j}{\pi_i\pi_j}\mathrm{cov}(\alpha_i,\alpha_j)\\ &=\sum_{i=1}^{N}\frac{(1-\pi_i)}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_{i}Y_j. \end{aligned} \]

特别当\(n\)固定时，对给定的\(i\)，

\[\sum_{j\ne i}^{N}(\pi_{ij}-\pi_i\pi_j)=\sum_{j\ne i}^{N}\pi_{ij}-\pi_i\sum_{j\ne i}^{N}\pi_j=(n-1)\pi_i-\pi_i(n-\pi_i)=-\pi_i(1-\pi_i), \]

于是

\[\begin{aligned} \sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2&=\sum_{i=1}^{N}\frac{\pi_i(1-\pi_i)Y_i^2}{\pi_i^2}\\ &=\sum_{i=1}^{N}\sum_{j\ne i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i^2}{\pi_i^2} \right)\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}\left(\pi_i\pi_j-\pi_{ij} \right)\left(\frac{Y_i^2}{\pi_i^2}+\frac{Y_j^2}{\pi_j^2} \right),\\ \mathbb{D}(\hat Y_{HT})&=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_{ij}-\pi_i\pi_j)\frac{Y_i}{\pi_i}\frac{Y_j}{\pi_j}\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i^2}{\pi_i^2}+\frac{Y_j^2}{\pi_j^2}-2\frac{Y_{i}Y_j}{\pi_i\pi_j} \right)\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2. \end{aligned} \]

这说明，要使估计量的方差\(\mathbb{D}(\hat Y_{HT})\)小，应使\(\displaystyle{\frac{Y_i}{\pi_i}}\)之间的差异尽可能小。

HT统计量方差的无偏估计

定理：如果\(\pi_i>0\)，\(\pi_{ij}>0\)，则\(\mathbb{D}(\hat Y_{HT})\)的无偏估计为

\[v(\hat Y_{HT})=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}y_iy_j. \]
如果\(n\)固定，则\(v(\hat Y_{HT})\)也可以用

\[v_{YGS}(\hat Y_{HT})=\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2. \]
当\(n=2\)时，\(v_{YHS}(\hat Y_{HT})>0\)，否则无论是哪一种无偏估计，都有可能出现负值。

类似科恩菲尔德法，只需将\(y_i\)改成\(\alpha_iY_i\)，并利用\(\alpha_i\)的相关性质：\(\displaystyle{\mathbb{E}(\alpha_i)=\pi_i,\mathbb{E}(\alpha_i\alpha_j)=\pi_{ij}}\)即可。

\[\begin{aligned} v(\hat Y_{HT})&=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}y_iy_j \\ &=\sum_{i=1}^{N}\alpha_i\frac{1-\pi_i}{\pi_i^2}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\alpha_{i}\alpha_j\frac{\pi_{ij}-\pi_{i}\pi_j}{\pi_i\pi_j\pi_{ij}}Y_iY_j\\ \mathbb{E}(v(\hat Y_{HT}))&=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i^2}Y_i^2\mathbb{E}(\alpha_i)+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j\pi_{ij}}Y_iY_j\mathbb{E}(\alpha_i\alpha_j)\\ &=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_iY_j\\ &=\mathbb{E}(\hat Y_{HT}). \end{aligned} \]

当\(n\)固定时，类似有

\[\begin{aligned} \mathbb{E}(v_{YGS}(\hat Y_{HT}))&=\mathbb{E}\left[\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2 \right]\\ &=\mathbb{E}\left[\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2\alpha_i\alpha_j \right]\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2\mathbb{E}(\alpha_i\alpha_j)\\ &=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2\\ &=\mathbb{D}(\hat Y_{HT}). \end{aligned} \]

\(\mathrm{\pi PS}\)抽样方法

常用的\(\mathrm{\pi PS}\)方法有：布鲁尔方法，水野法，不严格\(\mathrm{\pi PS}\)抽样法。

布鲁尔(Brewer)方法

要求：对总体所有的单元，都有\(Z_i\le \dfrac{1}{2}\)，只抽取\(n=2\)个单元。

步骤：按与\(\displaystyle{\frac{Z_i(1-Z_i)}{1-2Z_i}}\)成比例的概率抽取第一个单元\(j\)，再按与\(\dfrac{Z_i}{1-Z_j}\)成比例的概率抽取第二个单元。

相关计算：

\[\pi_i=2Z_i,\quad \pi_{ij}=\frac{4Z_iZ_j(1-Z_i-Z_j)}{(1-2Z_i)(1-2Z_j)\left(1+\sum\limits_{i=1}^{N}\dfrac{Z_i}{1-2Z_i} \right)}.\\ \hat Y_{B}=\frac{y_i}{\pi_i}+\frac{y_j}{\pi_j}=\frac{1}{2}\left(\frac{y_i}{Z_i}+\frac{y_j}{Z_j} \right),\\ v_{YGS}(\hat Y_{B})=\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{y_i}{\pi_i}-\frac{y_j}{\pi_j} \right)^2. \]
水野(Midzunol)法

要求：每个单元的大小满足\(M_i\ge\dfrac{(n-1)M_0}{n(N-1)}\)，抽取\(n>2\)个单元。

步骤：以概率\(Z_i^*=\dfrac{n(N-1)Z_i}{N-n}-\dfrac{n-1}{N-n}\)抽取第一个样本单元，在剩下的\(N-1\)个单元中不放回等概率抽取\(n-1\)个样本单元。

相关计算：

\[\pi_i=nZ_i,\\ \pi_{ij}=\frac{n-1}{N-1}\left[\frac{N-n}{N-2}(Z_i^*+Z_j^*)+\frac{n-2}{N-n} \right]. \]
非严格\(\mathrm{\pi PS}\)抽样——耶茨-格伦迪(Yates-Grundy)逐个抽取法

要求：\(n\)是不固定的而是随机的；或是非严格不放回的；或是\(\pi_i\approx nZ_i\)的。

步骤：以\(Z_i\)抽取第一个样本单元，再以\(\dfrac{Z_i}{1-Z_1}\)抽取第二个样本单元，再以\(\dfrac{Z_i}{1-Z_1-Z_2}\)抽取第三个样本单元……以此类推，直到抽出\(n\)个样本单元。

相关计算：Yates-Grundy逐个抽取法常常不采用HT估计量，而使用Raj估计量。设\(y_1,\cdots,y_n\)为按抽中顺序排列的样本单元指标值，\(Z_1,\cdots,Z_n\)为对应的抽中概率，令

\[\left\{\begin{array}{} t_1=\dfrac{y_1}{Z_1},\\ t_2=y_1+\dfrac{y_2}{Z_2}(1-Z_1), \\ \cdots \\ t_n=y_1+y_2+\cdots+y_{n-1}+\dfrac{y_n}{Z_n}(1-Z_1-Z_2-\cdots-Z_{n-1}). \end{array}\right. \\ \hat Y_{\text{Raj}}=\frac{1}{n}\sum_{i=1}^{n}t_i,\\ v(\hat Y_{\text{Raj}})=\frac{1}{n(n-1)}\sum_{i=1}^{n}(t_i-\hat Y_{\text{Raj}})^2. \]

两阶段不放回不等概抽样概述

抽样方式：在两阶段抽样中，第一阶段采用不放回不等概方法抽取初级单元\(\mathrm{PSU}\)，第\(i\)个\(\mathrm{PSU}\)的包含概率为\(\pi_i\)，第\(i\)个和第\(j\)个\(\mathrm{PSU}\)同时入样的包含概率为\(\pi_{ij}\)；第二阶段采用简单随机抽样，对不同\(\mathrm{PSU}\)的抽样相互独立，则总体总值\(Y\)的HT估计量为

\[\hat Y_{HT}=\sum_{i=1}^{n}\frac{\hat Y_i}{\pi_i}=\sum_{i=1}^{N}\alpha_i\frac{\hat Y_i}{\pi_i}. \]

且\(\hat Y_i\)是\(Y_i\)的无偏估计，\(\hat Y_{HT}\)是\(Y\)的无偏估计。

定理：

\(\mathbb{E}(\hat Y_{HT})=Y\)。

\(\displaystyle{\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\frac{1-\pi_i}{\pi_i}Y_i^2+2\sum_{i=1}^{N}\sum_{j>i}^{N}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_i\pi_j}Y_iY_j+\sum_{i=1}^{N}\frac{\mathbb{D}(\hat Y_i)}{\pi_i}}\)。

当\(n\)固定时，\(\displaystyle{\mathbb{D}(\hat Y_{HT})=\sum_{i=1}^{N}\sum_{j>i}^{N}(\pi_i\pi_j-\pi_{ij})\left(\frac{Y_i}{\pi_i}-\frac{Y_j}{\pi_j} \right)^2+\sum_{i=1}^{N}\frac{\mathbb{D}(\hat Y_i)}{\pi_i}}\)。

\(\mathbb{D}(\hat Y_{HT})\)的无偏估计为

\[v(\hat Y_{HT})=\sum_{i=1}^{n}\frac{1-\pi_i}{\pi_i^2}\hat Y_i^2+2\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_{ij}-\pi_i\pi_j}{\pi_{ij}\pi_i\pi_j}\hat Y_i\hat Y_j+\sum_{i=1}^{n}\frac{v(\hat Y_i)}{\pi_i},\\ v_{YGS}(\hat Y_{HT})=\sum_{i=1}^{n}\sum_{j>i}^{n}\frac{\pi_i\pi_j-\pi_{ij}}{\pi_{ij}}\left(\frac{\hat Y_i}{\pi_i}-\frac{\hat Y_j}{\pi_j} \right)^2+\sum_{i=1}^{n}\frac{v(\hat Y_i)}{\pi_i}. \]

posted @ 2021-05-28 20:41 江景景景页阅读(2752) 评论(1) 编辑收藏举报

刷新页面返回顶部

江景景景页