第1部分:简单随机抽样
概述
简单随机抽样的抽取规则:
- 按随机原则取样。
- 每个抽样单元被抽中的概率都是已知或事先确定的,或者可事先计算的。
- 每个抽样单元被抽中的概率均等。
简单随机抽样的实现方式:
- 从总体的\(N\)个单元中,一次整批抽取\(n\)个单元,使任何一个单元被抽中的概率都相等,任何\(n\)个不同单元组成的组合被抽中的概率也都相等。
- 从总体的\(N\)个单元中,逐个不放回地抽取单元,每次抽取到尚未入样的任何一个单元的概率都相等,直到抽足\(n\)个单元为止,这样所得的\(n\)个单元组成一个简单随机样本。
- 按照从总体的\(N\)个单元中抽取\(n\)个单元的所有可能不同的组合构造所有可能的\(C_N^n\)个样本,从\(C_{N}^n\)个样本随机抽取一个样本,使每个样本被抽到的概率都等于\(1/C_{N}^n\)。
抽样比:\(f=n/N\)。
简单估计量
研究对象:关于总体变量\(Y\)的\(N\)个变量值记为\(Y_1,\cdots,Y_N\),则总体均值和总体总值为
\[\bar Y=\frac{1}{N}\sum_{i=1}^N Y_i,\quad Y=\sum_{i=1}^N Y_i.
\]
简单估计量:从总体中抽取\(n\)个样本的值记为\(y_1,\cdots,y_n\),则
\[\hat {\bar Y}=\bar y=\frac{1}{n}\sum_{i=1}^n y_i,\quad \hat Y=N\bar y=\frac{N}{n}\sum_{i=1}^n y_i.
\]
为了研究比例和比率,进行\(0-1\)变换,即令
\[Y_i=\left\{\begin{array}l
1,& 总体中第i个单元具有所研究的特征;\\
0,& 总体中第i个单元不具有所研究的特征.
\end{array}\right.
\]
此时
\[A=\sum_{i=1}^N Y_i,\quad P=\frac{A}{N}=\bar Y,\quad R=\frac{\bar Y}{\bar X},\\
\hat P=p=\frac{a}{n}=\frac{1}{n}\sum_{i=1}^{n} y_i=\bar y=\hat{\bar Y},\quad \hat R=r=\frac{\bar y}{\bar x}.
\]
事实上,简单估计量的核心都是样本均值,只是分别使用不同的处理手段得到其他的简单估计量。
简单估计量的性质
两个简单引理
引理:从大小为\(N\)的总体中抽取一个样本量为\(n\)的简单随机样本,则总体中每个特定单元入样的概率为\(\dfrac{n}{N}\),两个特定单元都入样的概率为\(\dfrac{n(n-1)}{N(N-1)}\)。
引理:从总体规模为\(N\)的总体中抽取一个样本量为\(n\)的简单随机样本。若对总体中的每个单元\(Y_i\),引进\(a_i\)为\(Y_i\)入样的示性变量,则
\[\mathbb{E}(a_i)=\frac{n}{N}=f,\\
\mathbb{D}(a_i)=\frac{n}{N}\cdot\frac{N-n}{N}=f(1-f),\\
\mathrm{cov}(a_i,a_j)=-\frac{n}{N(N-1)}\left(1-\frac{n}{N} \right)=-\frac{f(1-f)}{N-1}.
\]
这里证明引理2的第三条结论。注意到
\[\mathrm{cov}(a_i,a_j)=\mathbb{E}(a_ia_j)-\mathbb{E}(a_i)\mathbb{E}(a_j),\\
\mathbb{P}(a_ia_j=1)=\frac{n(n-1)}{N(N-1)}=\mathbb{E}(a_ia_j),
\]
所以
\[\mathrm{cov}(a_i,a_j)=\frac{n(n-1)}{N(N-1)}-\frac{n^2}{N^2}=\frac{Nn(n-1)-n^2(N-1)}{N^2(N-1)}=\frac{-n(N-n)}{N^2(N-1)}=-\frac{f(1-f)}{N-1}.
\]
样本均值的期望
定理:对于简单随机抽样,作为\(\bar Y\)的简单估计,\(\hat{\bar Y}=\bar y\)是无偏的,即
\[\mathbb{E}(\bar y)=\bar Y.
\]
证明1:\(n\)个总体构成的样本\(S_{(i)}\)一共有\(C_{N}^n\)个,对应的样本均值\(\bar y_{(i)}\)也有\(C_{N}^n\)个,故
\[\mathbb{E}(\bar y)=\frac{1}{C_{N}^n}\sum_{i=1}^{C_{N}^n}\bar y_{(i)}=\frac{1}{nC_{N}^n}\sum_{i=1}^{C_{N}^n}(Y_{i_1}+\cdots+Y_{i_n}),
\]
这里\(Y_{i_n}\)代表第\(S_{(i)}\)的第\(i\)个分量。考虑进入样本的任意特定一个总体单元的变量值,包含此总体单元的所有可能样本一共有\(C_{N-1}^{n-1}\)个,因而在求和号内会出现\(C_{N-1}^{n-1}\)次,这样\(\displaystyle\sum_{i=1}^{C_{N}^n}(Y_{i_1}+\cdots+Y_{i_n})\)必定包含了每一个\(Y_i,i=1,\cdots,N\)各\(C_{N-1}^{n-1}\)次,从而
\[\mathbb{E}(\bar y)=\frac{1}{nC_N^n}\sum_{i=1}^NC_{N-1}^{n-1} Y_i=\frac{NC_{N-1}^{n-1} \bar Y}{nC_{N}^n}=\bar Y.
\]
证明2(科恩菲尔德法):对总体中每个单元\(Y_i\)引入如引理2所说的示性变量\(a_i\),则\(\bar y\)可表达为
\[\bar y=\frac{1}{n}\sum_{i=1}^{N} a_iY_i,
\]
这里\(Y_i,i=1,\cdots,N\)都是常数,所以
\[\mathbb{E}(\bar y)=\frac{1}{n}\sum_{i=1}^{N}Y_i\mathbb{E}(a_i)=\frac{1}{n}\frac{n}{N}\sum_{i=1}^{N}Y_i=\bar Y.
\]
若干关于样本均值的期望的推论:
-
对于简单随机抽样,\(\hat Y=N\bar y\)的期望为
\[\mathbb{E}(\hat Y)=\mathbb{E}(N\bar y)=N\mathbb{E}(\bar y)=N\bar Y.
\]
-
对于简单随机抽样,\(\hat P=p\)的期望为
\[\mathbb{E}(p)=\mathbb{E}(\bar y)=\bar Y=P.
\]
-
对于简单随机抽样,\(n\)较大时,\(\hat R=r\)的期望为
\[\mathbb{E}(r)=\mathbb{E}\left(\frac{\bar{x}}{\bar{y}} \right)\approx\frac{\mathbb{E}(\bar x)}{\mathbb{E}(\bar y)}=\frac{\bar X}{\bar Y}=R.
\]
这是依概率收敛的性质所导致的。
样本均值的方差
在抽样理论中,总体的方差通常定义为
\[S^2=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)^2.
\]
定理:对于简单随机抽样,\(\bar y\)的方差为
\[\mathbb{D}(\bar y)=\frac{1-f}{n}S^2.
\]
称\(1-f=\dfrac{N-n}{N}\)为有限总体校正系数。
利用科恩菲尔德法证明,有
\[\begin{aligned}
\mathbb{D}(\bar y)&= \mathbb{D}\left(\frac{1}{n}\sum_{i=1}^{N}a_iY_i \right)\\
&=\frac{1}{n^2}\left[\sum_{i=1}^{N}Y_i^2\mathbb{D}(a_i)+2\sum_{i<j}Y_iY_j\mathrm{cov}(a_i,a_j) \right] \\
&=\frac{1}{n^2}\left[f(1-f)\sum_{i=1}^{N}Y_i^2-2\frac{f(1-f)}{N-1}\sum_{i<j}^{N}Y_iY_j \right]\\
&=\frac{1}{n^2}\frac{n}{N}(1-f)\left[\sum_{i=1}^{N}Y_i^2-2\frac{1}{N-1}\left(\sum_{i<j}^{N}Y_iY_j \right) \right]\\
&=\frac{1-f}{nN}\left[\frac{N}{N-1}\sum_{i=1}^{N}Y_i^2-\frac{1}{N-1}\left(\sum_{i=1}^{N}Y_i^2+2\sum_{i<j}^{N}Y_iY_j \right) \right]\\
&=\frac{1-f}{nN}\left[\frac{N}{N-1}\sum_{i=1}^{N}Y_i^2-\frac{1}{N-1}\left(\sum_{i=1}^{N}Y_i \right)^2 \right]\\
&=\frac{1-f}{n(N-1)}\left[\sum_{i=1}^{N}Y_i^2-N\left(\frac{1}{N}\sum_{i=1}^{N}Y_i \right)^2 \right]\\
&=\frac{1-f}{n(N-1)}\left[\sum_{i=1}^{N}Y_i^2-N\bar Y^2 \right]\\
&=\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y )^2\\
&=\frac{1-f}{n}S^2.
\end{aligned}
\]
注意到\(\mathbb{D}(\bar y)\)中含有\(S^2\)而\(S^2\)需要依据总体计算,所以\(\mathbb{D}(\bar y)\)在给定样本量和总体量的情况下仍是未知的,可以对其进行估计,估计量就是\(\hat{\mathbb{D}}(\bar y)\)。
若干关于样本均值方差的推论:
-
对于简单随机抽样,\(\hat Y=N\bar y\)的方差为
\[\mathbb{D}(\hat Y)=N^2\mathbb{D}(\bar y)=N^2\frac{1-f}{n}S^2.
\]
-
对于简单随机抽样,\(\hat P=p\)的方差为
\[\mathbb{D}(p)=\frac{1-f}{n}\frac{1}{N-1}NP(1-P).
\]
当\(Y_i\)为\(0-1\)变量,即研究对象为比例时,有
\[\begin{aligned}
S^2& =\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)^2 \\
& =\frac{1}{N-1}\sum_{i=1}^{N}(Y_i^2-2Y_i\bar Y+\bar Y^2) \\
& =\frac{1}{N-1}\left(\sum_{i=1}^{N}Y_i^2-2\bar Y\sum_{i=1}^{N} Y_i+N\bar Y^2 \right)\\
&\xlongequal[P=\bar Y]{\sum Y_i^2=\sum Y_i=NP} \frac{1}{N-1}(NP-2NP^2+NP^2)\\
&=\frac{1}{N-1}NP(1-P).
\end{aligned}
\]
样本均值的协方差
对总体的两个变量或指标\(Y,X\),设\((Y_i,X_i)\)是第\(i\)个单元的相应特征值,则总体协方差为
\[S_{yx}=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)(X_i-\bar X).
\]
记抽样的样本均值为\(\bar y,\bar x\),总体均值为\(\bar Y,\bar X\),则定义\(\bar y\)和\(\bar x\)的协方差为
\[\mathrm{cov}(\bar y,\bar x)=\mathbb{E}(\bar y-\bar Y)(\bar x-\bar X).
\]
定理:对于简单随机抽样,有
\[\mathrm{cov}(\bar y,\bar x)=\frac{1-f}{n}S_{yx}
\]
引入人工变量\(u_i=y_i+x_i\),记\(\bar u=\bar y+\bar x\),\(\bar U=\bar Y+\bar X\),则\(\mathbb{D}(\bar u)=\mathbb{D}(\bar x)+\mathbb{D}(\bar y)+2\mathrm{cov}(\bar x,\bar y)\),
\[\begin{aligned}
\mathrm{cov}(\bar y,\bar x)&=\frac{1}{2}[\mathbb{D}(\bar u)-\mathbb{D}(\bar x)-\mathbb{D}(\bar y)] \\
&= \frac{1}{2}\frac{1-f}{n}(S_u^2-S_x^2-S_y^2)\\
&=\frac{1}{2}\frac{1-f}{n}\frac{1}{N-1}\left[\sum_{i=1}^{N}(Y_i+X_i-\bar Y-\bar X)^2-\sum_{i=1}^{N}(Y_i-\bar Y)^2-\sum_{i=1}^{N}(X_i-\bar X)^2 \right]\\
&= \frac{1}{2}\frac{1-f}{n}\frac{2}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)(X_i-\bar X)\\
&=\frac{1-f}{n}S_{yx}.
\end{aligned}
\]
方差与协方差的估计
样本方差定义为
\[s^2=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)^2.
\]
定理:简单随机样本的方差\(s^2\)是总体方差\(S^2\)的无偏估计。
\[\begin{aligned}
\mathbb{E}(s^2)&=\frac{1}{n-1}\mathbb{E}\left[\sum_{i=1}^{n}y_i^2-n\bar y^2 \right]\\
&=\frac{1}{n-1}\left[\mathbb{E}\left(\sum_{i=1}^{N}a_iY_i^2 \right)-n\mathbb{E}(\bar y^2) \right]\\
&=\frac{1}{n-1}\left\{f\sum_{i=1}^{N}Y_i^2-n\left[\mathbb{D}(\bar y)+(\mathbb{E}(\bar y))^2 \right] \right\}\\
&=\frac{1}{n-1}\left[\frac{n}{N}\sum_{i=1}^{N}Y_i^2-(1-f)S^2-n\bar Y^2 \right]\\
&=\frac{1}{n-1}\left[\frac{n}{N}\left(\sum_{i=1}^{N}Y_i^2-N\bar Y^2 \right)-(1-f)S^2 \right]\\
&=\frac{1}{n-1}\left[f(N-1)S^2-(1-f)S^2 \right]\\
&=\frac{1}{n-1}(fN-1)S^2\\
&=S^2.
\end{aligned}
\]
若干关于方差的推论:
- 对于简单随机抽样,\(\hat {\mathbb{D}}(\bar y)=v(\bar y)=\dfrac{1-f}{n}s^2\)是\(\mathbb{D}(\bar y)\)的无偏估计。
- 对于简单随机抽样,\(\hat{\mathbb{D}}(\hat Y)=v(N\bar y)=N^2\dfrac{1-f}{n}s^2\)是\(\mathbb{D}(\hat Y)\)的无偏估计。
- 对于简单随机抽样,\(\hat{\mathbb{D}}(\hat P)=v(p)=v(\bar y_{0-1})=\dfrac{1-f}{n-1}p(1-p)\)是\(\mathbb{D}(\hat P)\)的无偏估计。
定理:简单随机样本的协方差
\[s_{yx}=\frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar y)(x_i-\bar x)
\]
是总体协方差\(S_{yx}\)的无偏估计。
证明完全类似,即
\[\begin{aligned}
\mathbb{E}(s_{yx})&=\frac{1}{n-1}\mathbb{E}\left[\sum_{i=1}^{n}(y_i-\bar y)(x_i-\bar x) \right]\\
&=\frac{1}{n-1}\mathbb{E}\left[\sum_{i=1}^{n}(y_ix_i-\bar y\bar x) \right]\\
&=\frac{1}{n-1}\left\{\frac{n}{N}\sum_{i=1}^{N}Y_iX_i -n[\mathbb{E}(\bar y)\mathbb{E}(\bar x)+\mathrm{cov}(\bar y,\bar x) ] \right\}\\
&=\frac{1}{n-1}\left[\frac{n}{N}\sum_{i=1}^{N}Y_iX_i-n\bar Y\bar X-(1-f)S_{yx} \right]\\
&=\frac{1}{n-1}\left[f\sum_{i=1}^{N}(Y_i-\bar Y)(X_i-\bar X)-(1-f)S_{yx} \right]\\
&=\frac{1}{n-1}[f(N-1)-(1-f)]S_{yx}\\
&=S_{yx}.
\end{aligned}
\]
中心极限定理
由于简单估计量都以样本均值为核心,故根据中心极限定理,简单估计量接近正态分布,即
\[\bar Y\to N\left(\mathbb{E}(\bar y),\sqrt{\mathbb{D}(\bar y)}\right)
\]
用样本调查值计算出\(\bar y\)和\(v(\bar y)\),然后进行如下替代:
\[\bar Y\stackrel{\approx}\to N\left(\bar y,\sqrt{v(\bar y)}\right)
\]
置信水平为\(1-\alpha\)的置信区间为
\[\left[\bar y-z_{\alpha/2}\sqrt{\frac{1-f}{n}},\bar y+z_{\alpha/2}\sqrt{\frac{1-f}{n}} \right].
\]
比率估计量概述
比率估计量研究的是与调查变量高度相关的其他辅助变量,如果辅助变量信息质量较好,则利用这些信息有助于提高估计的精度,故简单估计量不如比率估计量。
辅助变量的特点:
- 必须与主要变量高度相关。
- 辅助变量与主要变量之间的相关关系整体上相当稳定。
- 辅助变量的总体总值必须是已知的,或是易得的。
- 辅助变量的信息质量好,调查成本低。
主要变量的总体均值\(\bar Y\)的比率估计量为:
\[\hat{\bar Y}_{R}=\bar y_{R}=\bar X\frac{\bar y}{\bar x}=\frac{1}{N}X\hat {R}.
\]
主要变量的总体总值\(Y\)的比率估计量为:
\[\hat Y_{R}=N\hat{\bar Y}_{R}=X\frac{\bar y}{\bar x}=X\hat R.
\]
其核心都是\(\hat R=\dfrac{\bar y}{\bar x}\)。
比率估计量的性质
比率估计量的期望
引理:对于简单随机抽样,\(n\)较大时,\(\hat {R}=r\)的期望为
\[\mathbb{E}(\hat R)=\mathbb{E}(r)\approx R.
\]
即\(r\)不是\(R\)的无偏估计,但是是渐进无偏的。
渐进无偏性由样本均值的一致性可得,当\(n\)充分大时,有\(\dfrac{\bar y}{\bar x}\approx\dfrac{\bar y}{\bar X}\),所以
\[\mathbb{E}(r)=\mathbb{E}\left(\frac{\bar y}{\bar x} \right)\approx\mathbb{E}\left(\frac{\bar y}{\bar X} \right)=\frac{\mathbb{E}(\bar y)}{\bar X}=\frac{\bar Y}{\bar X}=R.
\]
推论:
-
对于简单随机抽样,\(n\)较大时,\(\bar y_{R}\)的期望为
\[\mathbb{E}(\bar y_{R})\approx\bar XR=\bar Y.
\]
-
对于简单随机抽样,\(n\)较大时,\(\hat Y_{R}\)的期望为
\[\mathbb{E}(\hat Y_{R})=\mathbb{E}(N\bar y_{R})\approx N\bar Y=Y.
\]
比率估计量的方差
引理:对于简单随机抽样,\(n\)较大时,\(\hat R=r\)的方差为
\[\mathbb{D}(r)\approx\frac{1}{\bar X^2}\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-RX_i)^2.
\]
由于\(\mathbb{E}(\hat R)\approx R\),所以\(\mathrm{MSE}(\hat R)\approx \mathbb{D}(\hat R)=\mathbb{E}(\hat R-R)^2\),而
\[\hat R-R=\frac{\bar y-R\bar x}{\bar x},
\]
所以当\(n\)足够大时,\(\hat R-R\approx\dfrac{\bar y-R\bar x}{\bar X}\),故
\[\mathbb{E}(\hat R-R)\approx \mathbb{E}\left(\frac{\bar y-R\bar x}{\bar X} \right)=\frac{1}{\bar X}(\bar Y-R\bar X)=0,\\
\mathbb{E}(\hat R-R)^2\approx\frac{1}{\bar X^2}\mathbb{E}(\bar y-R\bar x)^2
\]
令\(G_i=Y_i-RX_i\),则\(\bar g=\bar y-R\bar x\),\(\bar G=0\),有
\[\mathbb{E}(\hat R-R)^2\approx \frac{1}{\bar X^2}\mathbb{E}(\bar g^2)=\frac{1}{\bar X^2}\mathbb{D}(\bar g),\\
\]
所以
\[\begin{aligned}
\mathbb{D}(\hat R)&\approx \frac{1}{\bar X^2}\mathbb{D}(\bar g)\\
&=\frac{1}{\bar X^2}\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(G_i-\bar G)^2\\
&=\frac{1}{\bar X^2}\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-RX_i)^2.
\end{aligned}
\]
推论:
-
对于简单随机抽样,\(n\)较大时,\(\hat Y_{R}=N\bar y_{R}\)的方差为
\[\mathbb{D}(\hat Y_{R})\approx N^2\frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-RX_i)^2.
\]
-
对于简单随机抽样,\(n\)较大时,\(\bar y_{R}\)的方差为
\[\mathbb{D}(\bar y_{R})\approx \frac{1-f}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-RX_i)^2.
\]
符号规定:用\(S_x^2,S_y^2\)分别表示\(X,Y\)的总体方差,\(S_{yx}\)表示\(Y,X\)的总体协方差,\(\rho=\dfrac{S_{yx}}{S_xS_{y}}=\dfrac{S_{yx}}{\sqrt{S_{y}^2S_{x}^2}}\)定义为\(Y,X\)的总体相关系数,再定义相对方差、相对协方差为
\[C_y^2=\frac{S_y^2}{\bar Y^2},\quad C_{x}^2=\frac{S_x^2}{\bar X^2},\quad C_{yx}=\frac{S_{yx}}{\bar Y\bar X}.
\]
在引入这些符号后,有
\[\begin{aligned}
& \quad \frac{1}{N-1}\sum_{i=1}^{N}(Y_i-RX_i)^2\\
&= \frac{1}{N-1}\sum_{i=1}^{N}[(Y_i-RX_i)-(\bar Y-R\bar X)]^2\\
&=\frac{1}{N-1}\sum_{i=1}^{N}[(Y_i-\bar Y)-R(X_i-\bar X)]^2 \\
&=\frac{1}{N-1}\sum_{i=1}^{N}\left[(Y_i-\bar Y)^2-2R(Y_i-\bar Y)(X_i-\bar X)+R^2(X_i-\bar X)^2 \right]\\
&=S_y^2-2RS_{yx}+R^2S_{x^2}\\
&=\bar Y^2(C_y^2-2C_{yx}+C_x^2).
\end{aligned}
\]
于是比率估计量的估计式可以简化。
回归估计量
如果\(Y\)和辅助变量\(X\)之间存在近似的线性关系,但该直线并不通过\(XY\)平面坐标原点,则最好构造\(Y\)对\(X\)的线性回归关系进行估计。主要变量总体均值\(\bar Y\)的回归估计量是
\[\bar y_{lr}=\bar y+\beta(\bar X-\bar x).
\]
这里\(\beta=-\dfrac{\partial(\bar y_{lk})}{\partial(\bar x)}\)为回归系数,表示主要变量相对辅助变量的变化率。
- \(\beta=0\)时,\(\bar y_{lr}=\bar y\),即简单估计量。
- \(\beta = \dfrac{\bar y}{\bar x}\)时,\(\bar y_{lr}=\bar y_{R}\),即比率估计量。
- \(\beta=1\)时,\(\bar y_{lr}=\bar X+(\bar y-\bar x)\),称为差估计量。
类似有总体总值的回归估计量为\(\hat Y_{lr}=N\bar y_{lr}\)。
回归估计量的性质
回归系数已知
对于简单随机抽样,如\(\beta\)为常数\(\beta_0\),则
\[\mathbb{E}(\bar y_{lr})=\bar Y,\\
\mathbb{D}(\bar y_{lr})=\frac{1-f}{n}(S_y^2 - 2\beta S_{yx} + \beta_0^2S_x^2).
\]
为使回归估计量的精度最高,即\(\mathbb{D}(\bar y_{lr})\)最小,应有
\[\beta_0=B=\frac{S_{yx}}{S_x^2}=\rho\frac{S_{y}}{S_{x}}.
\]
此时有
\[\min \mathbb{D}(\bar y_{lr})=\frac{1-f}{n}S_y^2(1-\rho^2).
\]
回归系数未知
对于简单随机抽样,如果\(\beta\)未知,需要通过样本进行估计,则一般选择最小二乘估计,取
\[b=\frac{S_{yx}}{S_{x}^2}=\frac{\sum_{i=1}^{n}(y_i-\bar y)(x_i-\bar x)}{\sum_{i=1}^{n}(x_i-\bar x)^2},\\
\bar y_{lr}=\bar y+b(\bar X-\bar x).
\]
此时,当\(n\)足够大时,有
\[\mathbb{E}(\bar y_{lr})\approx \bar Y,\\
\mathbb{D}(\bar y_{lr})\approx \mathrm{MSE}(\bar y_{lr})\approx \frac{1-f}{n}S^2(1-\rho^2).
\]
抽样的设置
确定样本大小:一般利用绝对误差限来替代抽样误差,即置信度为\(1-\alpha\)时,
\[\mathbb{P}(|\bar y-\bar Y|\le d)=1-\alpha\Rightarrow \mathbb{P}\left(\frac{|\bar y-\bar Y|}{\sqrt{\mathbb{D}(\bar y)}}\le \frac{d}{\sqrt{\mathbb{D}(\bar y)}} \right)=1-\alpha,\\
\Downarrow \\
z_{\alpha/2}=\frac{d}{\sqrt{\mathbb{D}(\bar y)}},\quad \mathbb{D}(\bar y)=\frac{d^2}{z^2_{\alpha/2}}.
\]
由于\(\mathbb{D}(\bar y)=\dfrac{1-f}{n}S^2=\left(\dfrac{1}{n}-\dfrac{1}{N} \right)S^2\),所以
\[\frac{1}{n}=\frac{1}{N}+\frac{d^2}{z_{\alpha/2}^2S^2}.
\]
要确定样本量,应遵循以下的步骤:
-
确定估计精度水平,包括误差限\(d\)和置信度\(1-\alpha\),由此得到分位数\(z_{\alpha/2}\)。
-
按照保守原则(样本容量宁大勿小),实施对总体方差\(S^2\)的预估。可以使用以下方法预估\(S^2\):
- 利用以前的调查结果和经验;
- 利用预调查或试调查的结果;
- 利用同类或相似或有关的二手数据结果;
- 利用某些理论上的结论;
- 利用有经验的专家的判断。
-
确定初始样本量为
\[n_0=\frac{1}{\dfrac{1}{N}+\dfrac{d^2}{z_{\alpha/2}^2S^2}}.
\]
-
确定抽样方式,并根据不同抽样方式的设计效应\(\mathrm{deff}\)对样本容量进行调整:
\[n_1=n_0\times \mathrm{deff}.
\]
设计效应:任意抽样方式下的抽样方差除以简单随机抽样方式下的抽样方差的商,简单随机抽样的\(\mathrm{deff}=1\)。
-
判定有效回答率\(r\),并根据有效回答率对样本容量进行再调整:
\[n_2=\frac{n_1}{r}.
\]
-
附加考虑。
习题
2.3,2.4,2.5,2.7,2.9,2.10