数理统计8：点估计的有效性、一致最小方差无偏估计(UMVUE)、零无偏估计法

合集 - 数理统计学习指南(17)

1.数理统计1：数理统计的概念，总体与样本，统计量2021-01-29 2.数理统计2：为什么是正态分布，正态分布均值与方差的估计，卡方分布2021-01-30 3.数理统计3：充分统计量，因子分解定理，点估计的评判标准2021-02-01 4.数理统计4：均匀分布的参数估计，次序统计量的分布，Beta分布2021-02-01 5.数理统计5：指数分布的参数估计，Gamma分布，Gamma分布与其他分布的联系2021-02-02 6.数理统计6：泊松分布，泊松分布与指数分布的联系，离散分布参数估计2021-02-04 7.数理统计7：矩法估计（MM）、极大似然估计（MLE），定时截尾实验2021-02-07

8.数理统计8：点估计的有效性、一致最小方差无偏估计(UMVUE)、零无偏估计法2021-02-08

9.数理统计9：完备统计量，指数族，充分完备统计量法，CR不等式2021-02-09 10.数理统计10（习题篇）：寻找UMVUE2021-02-11 11.数理统计11：区间估计，t分布，F分布2021-02-16 12.数理统计12：枢轴量法、分位数、正态参数区间估计2021-02-17 13.数理统计13：非正态总体的区间估计，极限分布2021-02-20 14.数理统计14：什么是假设检验，拟合优度检验(1)，经验分布函数2021-02-21 15.数理统计15：拟合优度检验(2)，列联表，正态性检验2021-02-22 16.数理统计16：NP理论、似然比检验、假设检验与区间估计2021-02-23 17.数理统计17：正态总体参数假设检验2021-02-24

在之前的学习中，主要基于充分统计量给出点估计，并且注重于点估计的无偏性与相合性。然而，仅有这两个性质是不足的，无偏性只能保证统计量的均值与待估参数一致，却无法控制统计量可能偏离待估参数的程度；相合性只能在大样本下保证统计量到均值的收敛性，但却对小样本情形束手无策。今天我们将注重于统计量的有效性，即无偏统计量的抽样分布的方差。由于本系列为我独自完成的，缺少审阅，如果有任何错误，欢迎在评论区中指出，谢谢！

Part 1：一致最小方差无偏估计
Part 2：改进无偏估计量
Part 3：零无偏估计法

Part 1：一致最小方差无偏估计

首先考虑这样的问题：如何刻画一个统计量的有效程度？注意到，一个统计量的取值既可能高于待估参数，亦可能低于待估参数，要综合考虑统计量对待估参数误差，需要用平方均衡这种双向偏差，因此，提出均方误差的概念：若 $\hat g(\boldsymbol{X})$ 是 $g(\theta)$ 的估计量，则 $\hat g(\boldsymbol{X})$ 的均方误差定义为

M S E (^g (X)) = E [^g (X) - g (θ)]^{2} .

$\mathrm{MSE}(\hat g(\boldsymbol{X}))= \mathbb{E}[\hat g(\boldsymbol{X})-g(\theta)]^2.$

对于确定的统计量 $\hat g(\boldsymbol{X})$ 而言， $\mathrm{MSE}(\hat g(\boldsymbol{X}))$ 是 $\theta$ 的函数。显然，一个统计量的均方误差越小，它就越在待估参数真值附近环绕，由此，用统计量的一次观测值作为待估参数的估计就有着越大的把握。

如果对于 $g(\theta)$ 的两个估计量 $\hat g_1(\boldsymbol{X})$ 和 $\hat g_2(\boldsymbol{X})$ ，恒有 $\mathrm{MSE}(\hat g_1(\boldsymbol{X}))\le \mathrm{MSE}(\hat g_2(\boldsymbol{X}))$ ，且严格不等号至少在某个 $\theta$ 处成立，就称 $\hat g_1(\boldsymbol{X})$ 在均方误差准则下优于 $\hat g_2(\boldsymbol{X})$ 。如果我们能找到均方误差最小的统计量 $\hat g(\boldsymbol{X})$ ，就相当于找到了均方误差准则下的最优统计量。

不过，均方误差是 $\theta$ 的函数，这就导致了某些统计量在 $\theta=\theta_1$ 时均方误差小，在 $\theta=\theta_2$ 时均方误差大，一致最小均方误差估计量便不存在，需要增加约束条件，找到更可能存在的“最优”。

基于此，我们提出一致最小方差无偏估计(UMVUE)的概念，它将 $g(\theta)$ 的估计量限制在了无偏估计之中，这使得UMVUE的存在可能性得以提高。并且，由于 $\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta)$ ，所以

M S E (^g (X)) = E (^g (X) - g (θ))^{2} = E [^g (X) - E (^g (X))]^{2} = D (^g (X)),

$\mathrm{MSE}(\hat g(\boldsymbol{X}))=\mathbb{E}(\hat g(\boldsymbol{X})-g(\theta))^2=\mathbb{E}[\hat g(\boldsymbol{X})-\mathbb{E}(\hat g(\boldsymbol{X}))]^2=\mathbb{D}(\hat g(\boldsymbol{X})),$

即无偏估计的均方误差就是无偏估计的方差。

不过首先要提出的是，UMVUE往往比一致最小均方误差估计量更容易存在，但依然不是所有参数都存在UMVUE的，并且，甚至可能有的参数根本不存在无偏估计。

以下是一个典型的不存在无偏估计的例子： $X\sim B(n,p)$ ，参数 $g(p)=1/p$ 的无偏估计不存在。书上给出的证明过程如下：

首先，无偏估计不依赖于样本容量，故假设 $n=1$ 。若 $g(p)$ 有无偏估计 $\hat g(X)$ ，则由于 $X=0,1,\cdots,n$ ，故 $\hat g(X)$ 的取值只可能是 $a_0,a_1,\cdots,a_n$ ，可以写出其期望为

$\mathbb{E}(\hat g(X))=\sum_{j=0}^n a_jC_n^jp^j(1-p)^{n-j},$
当 $\hat g(X)$ 为无偏估计时，成立以下等式：

$\sum_{j=0}^na_jC_n^jp^j(1-p)^{n-j}=\frac{1}{p},$
即对于某个多项式 $f\in\mathcal P_{n+1}(\mathbb{R})$ ，有

$f(p)=0,\quad \forall p\in(0,1).$
显然，要使上式恒成立，除非 $f$ 为零多项式。但 $f$ 并不是零多项式，这意味着 $f(p)=0$ 只会在至多 $n+1$ 个点处成立，这与无偏性要求矛盾。因此， $g(p)=1/p$ 不存在无偏估计。

我们将存在无偏估计的待估参数称为可估参数，因此UMVUE仅对可估参数作讨论。我们的任务，就是用一定的方法，找到可估参数的UMVUE。

Part 2：改进无偏估计量

无偏估计量有许多，比如正态分布 $N(\mu,\sigma^2)$ 中， $\mu$ 的无偏估计就有 $X_1,2X_2-X_1,\bar X$ 等。充分统计量的条件期望法是改进无偏估计量的一个典型方式，它基于如下的定理：设 $T=T(\boldsymbol{X})$ 是一个充分统计量， $\hat g(\boldsymbol{X})$ 是 $g(\theta)$ 的一个普通无偏估计量，则 $h(T)=\mathbb{E}[\hat g(\boldsymbol{X})|T]$ 是 $g(\theta)$ 的无偏估计，且

D (h (T)) \leq D (^g (X)), \forall θ \in Θ .

$\mathbb{D}(h(T))\le \mathbb{D}(\hat g(\boldsymbol{X})),\quad \forall \theta\in\Theta.$

等号成立当且仅当 $\hat g(\boldsymbol{X})=h(T)$ 是均方条件下成立的。它的证明不是很有必要掌握，权当了解。

因为 $T$ 是 $g(\theta)$ 的充分统计量，故 $\mathbb{E}(\hat g(\boldsymbol{X})|T)$ 与待估参数 $g(\theta)$ 无关，可以作为统计量，即

$h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T)$
是合理定义的统计量。下证其无偏性，由全期望公式，有

$\mathbb{E}(h(T))=\mathbb{E}[\mathbb{E}(\hat g(\boldsymbol{X})|T)]=\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta).$
最后证明其比 $\hat g(\boldsymbol{X})$ 更有效，利用一个常用的拆分技巧，得到

$\begin{aligned} \mathbb{D}(\hat g(\boldsymbol{X}))&=\mathbb{D}[\hat g(\boldsymbol{X})-h(T)+h(T)]\\ &=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))+2\mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T)), \end{aligned}$
然后证明交叉项为0，这里需要再次用到全期望公式，有

$\begin{aligned} &\quad \mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T))\\ &=\mathbb{E}[h(T)-g(\theta)][\hat g(\boldsymbol{X})-h(T)]\\ &=\mathbb{E}[\mathbb{E}[(h(T)-g(\theta))(\hat g(\boldsymbol{X})-h(T))|T]]\\ &=\mathbb{E}[(h(T)-g(\theta))(\mathbb{E}(\hat g(\boldsymbol{X})|T)-h(T)]\\ &=0. \end{aligned}$
最后的等号是因为 $h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T)$ ，于是代回就得到

$\mathbb{D}(\hat g(\boldsymbol{X}))=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))\ge \mathbb{D}(h(T)).$
等号成立当且仅当 $\mathbb{D}(\hat g(\boldsymbol{X})-h(T))^2=\mathbb{E}(\hat g(\boldsymbol{X})-h(T))^2=0$ 。

这个定理的重要意义在于，如果给定的无偏估计量不是充分统计量的函数，则可以通过条件期望法，将其转变成一个充分统计量的函数作为新的统计量，并且新的统计量总是更有效的。此外，这也对我们寻找UMVUE提出启示：UMVUE一定是充分统计量的函数。如果不然，则可以通过对充分统计量求期望，得到一个更有效的统计量。

不过，改进后的充分统计量函数，尽管是更为有效的参数估计，但却并不一定是UMVUE，下面的定理将给出一个验证点估计是否为UMVUE的方法。

Part 3：零无偏估计法

零无偏估计法是用于判断某个估计量是否为UMVUE的方法，为此，首先要提出什么是零无偏估计。顾名思义，零无偏估计即零的无偏估计量，对某个统计量 $l(\boldsymbol{X})$ ，如果有 $\mathbb{E}(l(\boldsymbol{X}))=0$ ，则称 $l(\boldsymbol{X})$ 是一个零无偏估计量；如果统计量 $T$ 是待估参数 $g(\theta)$ 的充分统计量，且 $\mathbb{E}(h(T))=0$ ，则 $h(T)$ 也称为 $g(\theta)$ 的零无偏估计量。

零无偏估计法的思想、证明过程都与上述的充分统计量条件期望法类似。如果 $\hat g(\boldsymbol{X})$ 是UMVUE，则对于任意其他无偏估计 $\hat g_1(\boldsymbol{X})$ ，都可以视为 $\hat g_1(\boldsymbol{X})=\hat g(\boldsymbol{X})+l(\boldsymbol{X})$ ，显然这里 $\mathbb{E}(l(\boldsymbol{X}))=0$ ，要使 $\hat g_1(\boldsymbol{X})$ 的方差大于 $\hat g(\boldsymbol{X})$ ，可以进行拆分，即

D ({^g}_{1} (X)) = D (^g (X)) + D (l (X)) + 2 C o v (^g (X), l (X)) .

$\mathbb{D}(\hat g_1(\boldsymbol{X}))=\mathbb{D}(\hat g(\boldsymbol{X}))+\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X})).$

如果最后的协方差项为0，则必有 $\mathbb{D}(\hat g_1(\boldsymbol{X}))\ge \mathbb{D}(\hat g(\boldsymbol{X}))$ 。综合以上讨论，给出零无偏估计法验证UMVUE的方式。

设 $\hat g(\boldsymbol{X})$ 是 $g(\theta)$ 的一个无偏估计， $\mathbb{D}(\hat g(\boldsymbol{X}))<\infty$ ，对任何 $\theta\in\Theta$ ，若对任何零无偏估计 $l(\boldsymbol{X})$ 都有

C o v (^g (X), l (X)) = 0,

$\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=0,$

则 $\hat g(\boldsymbol{X})$ 是 $g(\theta)$ 的UMVUE。

如果 $\hat g(\boldsymbol{X})$ 满足与任何零无偏估计无关，则它是UMVUE，这是一个充分条件。但反之，它也是一个必要条件，即UMVUE必定与任何零无偏估计量无关。

如果不然，设 $\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=b(\theta)\ne 0$ ，则可以假设 $\mathbb{D}(l(\boldsymbol{X}))=a^2(\theta)>0$ 。现在固定 $\theta=\theta_0$ 为常数，并设 $a(\theta_0)=a,b(\theta_0)=b$ ，只要

$\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=a^2(\theta_0)+2b(\theta_0)=a^2+2b<0,$
就能找到一个在 $\theta=\theta_0$ 处，比 $\hat g(\boldsymbol{X})$ 方差更小的无偏估计，那么 $\hat g(\boldsymbol{X})$ 就不是UMVUE。注意到，如果 $l(\boldsymbol{X})$ 是零无偏估计，则 $\forall k\ne 0$ ， $kl(\boldsymbol{X})$ 也是零无偏估计，就有

$\mathbb{D}(kl(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),kl(\boldsymbol{X}))=k^2a^2+2bk,$
取 $k$ 值为

$\left\{\begin{array}l -\frac{2b}{a}<k<0,& b>0; \\ 0<k<-\frac{2b}{a},& b<0. \end{array}\right.$
就使得 $k^2a^2+2bk<0$ 成立，于是

$\hat g_1(\boldsymbol{X})\xlongequal{def}\hat g(\boldsymbol{X})+kl(\boldsymbol{X})$
是 $g(\theta)$ 的无偏估计量，且当 $\theta=\theta_0$ 时 $\mathbb{D}(\hat g_1(\boldsymbol{X}))<\mathbb{D}(\hat g(\boldsymbol{X}))$ ，故 $\hat g(\boldsymbol{X})$ 不是UMVUE。

有了这个方法，我们可以验证一些常用的充分统计量是UMVUE了。现以正态分布 $N(\mu,\sigma^2)$ 的充分统计量 $(\bar X,S^2)$ 为例，它们是否是UMVUE呢？如果直接验证会稍显繁琐，对零无偏估计法稍加修改可以得到以下的推论：

如果 $T$ 是充分统计量且 $h(T)$ 是 $g(\theta)$ 的一个无偏估计，对任何 $\theta\in\Theta$ 与一切零无偏估计量 $\delta (T)$ 都有

C o v (h (T), δ (T)) = E (h (T) δ (T)) = 0,

$\mathrm{Cov}(h(T),\delta(T))=\mathbb{E}(h(T)\delta(T))=0,$

则 $h(T)$ 是UMVUE。

这里只是将样本的函数改成了充分统计量的函数，以上证明过程是依然适用的。并且，由于UMVUE一定是充分统计量的函数，因此这个推论会更有应用意义。

对于正态分布而言，充分统计量可以视为

$T_1=\frac{1}{n}\sum_{j=1}^n X_j,\quad T_2=\sum_{j=1}^n (X_j-\bar X)^2,\\ T_1\sim N\left(\mu,\frac{\sigma^2}{n}\right),\quad \frac{T_2}{\sigma^2}\sim\chi^2(n-1)\Rightarrow T_2\sim\Gamma\left(\frac{n-1}{2},\frac{1}{2\sigma^2} \right).$

由于 $T_1,T_2$ 独立，所以其联合密度函数容易写出，有

$f_1(t_1)=\frac{\sqrt{n}}{\sqrt{2\pi \sigma^2}}\exp\left\{-\frac{n(t_1-\mu)^2}{2\sigma^2} \right\},\\ f_2(t_2)=\frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})\sigma^{n-1}}t_2^{\frac{n-1}{2}-1}e^{-\frac{t_2}{2\sigma^2}},\\ f(t_1,t_2)=\frac{C}{\sigma^n}t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}.$

如果 $\delta(t_1,t_2)$ 是零均值的，则有

$\mathbb{E}(\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^\infty \delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}\mathrm{d}t_1\mathrm{d}t_2=0.$

令 $\exp$ 部分为 $H(\mu,\sigma^2)$ ，也就是我们获得了这个关键的等式（它是证明的核心）：

$\int_{-\infty}^\infty\delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0$

要验证 $\mathbb{E}(t_1,\delta(t_1,t_2))$ 与 $\mathbb{E}(t_2,\delta(t_1,t_2))$ 是否为0，先从第一个入手，写出其表达式为

$\mathbb{E}(t_1,\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^{\infty}\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2.$

要验证 $\mathbb{E}(t_1,\delta(t_1,t_2))=0$ ，实际上就是验证

$\int_{-\infty}^\infty \delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0.$

不要被这个庞然大物吓到，事实上我们唯一的条件只有 $\mathbb{E}(\delta(t_1,t_2))=0$ 所对应的等式，注意到上面的等式无论 $\mu,\sigma$ 的真值是多少都应该成立，所以是 $\mu,\sigma$ 的二元函数，我们能做的事也很有限——对参数求导。这里涉及到了求导与积分是否可交换的问题，我们姑且不考虑，默认视为可交换即可，由于 $\sigma^2$ 很复杂，所以对 $\mu$ 求导即可。唯一含有 $\mu$ 的项是积分号中间的 $\exp$ 部分，其导数为

$H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2),$

于是就有

$\frac{\partial \mathbb{E}(\delta_1,\delta_2)}{\partial\mu}=\frac{C}{\sigma^n}\int_{-\infty}^\infty\delta(t_1,t_2)t_2^{\frac{n-1}{2}-1}\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0,$

将求导后得到的式子展开，提取出参数并代入上面的结果，就有

$\int_{-\infty}^\infty\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma)\mathrm{d}t_1\mathrm{d}t_2=0,$

也就说明了 $\mathbb{E}(t_1,\delta(t_1,t_2))=0$ ，由 $\delta(t_1,t_2)$ 的任意性以及 $T_1$ 的无偏性，可知 $\bar X$ 是 $\mu$ 的UMVUE。

下一步证明 $T_2/(n-1)$ 是 $\sigma^2$ 的UMVUE，也就是证明 $\mathbb{E}(t_2,\delta(t_1,t_2))=0$ ，同样写出需要验证的等式为

$\int_{-\infty}^\infty\delta(t_1,t_2) t_2^{\frac{n-1}{2}}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0.$

现在我们尝试将关键的等式对 $\sigma^2$ 求导，同样，先计算 $H$ 对 $\sigma^2$ 的偏导，有

$H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \sigma^2}=\frac{n(t_1-\mu)^2+t_2}{2\sigma^4}H(\mu,\sigma^2),$

可以看到，这里除了出现已经确认代入能为0的常数项和 $t_1$ 外，还多了 $t_1^2$ 与 $t_2$ 的项， $t_2$ 就是我们的目标，所以再处理一下 $t_1^2$ 这一项。显然，对 $\mu$ 求导一次能得到 $t_1$ 的一次项，那么对 $\mu$ 求二阶导，就能得到 $t_1^2$ 项，所以

$\frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2),\\ \frac{\partial^2H(\mu,\sigma^2)}{\partial\mu^2}=H(\mu,\sigma^2)\left[\frac{4n^2(t_1-\mu)^2}{\sigma^4}-\frac{2n}{\sigma^2} \right].$

这样就出现了需要的 $t_1^2$ 项，剩下的工作只有繁琐的代入计算而已，我们实际上已经完成了证明的主要步骤，因此 $S^2$ 也是 $\sigma^2$ 的UMVUE。

对于一元连续或离散情形下UMVUE的验证，难度要比二元情形下小得多，因此读者只要掌握了正态分布的零无偏估计法验证，理论上其他UMVUE的验证便不成问题。读者可以自己尝试其他UMVUE的验证。

今天，我们提出了UMVUE的概念，重点在于利用充分统计量改进普通的无偏估计，并且利用零无偏估计法验证某个充分统计量函数是否是UMVUE。但是，我们并没有给出寻找UMVUE的方法，如果依靠感觉没有方向地寻找再一个个验证是否为UMVUE，是十分繁琐且难以成功的。比如对于 $B(1,p)$ 的参数估计 $g(p)=p(1-p)$ ，如果用先猜想后验证的方法来寻找UMVUE，甚至没有入手点。

因此，明天我们将学习寻找UMVUE的方法，并介绍一个被我们忽略已久的概念——指数族。

posted @ 2021-02-08 14:36 江景景景页阅读(6881) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

江景景景页

数理统计8：点估计的有效性、一致最小方差无偏估计(UMVUE)、零无偏估计法

Part 1：一致最小方差无偏估计

Part 2：改进无偏估计量

Part 3：零无偏估计法

公告

合集

随笔分类

阅读排行榜

推荐排行榜