数理统计3：充分统计量，因子分解定理，点估计的评判标准

上一章的末尾提到，我们应当选择全部的样本来进行参数估计，而不是只选择部分的样本。那么什么叫做选择全部的样本呢？它的定义标准是什么？这就是今天要探讨的充分统计量问题。由于本系列为我独自完成的，缺少审阅，如果有任何错误，欢迎在评论区中指出，谢谢！

Part 1：充分统计量
Part 2：因子分解定理
Part 3：好的点估计该是什么样的

Part 1：充分统计量

对参数进行估计，要使用从样本加工而来的统计量，这是一种对样本的信息提取。但我们知道，加工在简化信息结构的同时，肯定也丢失了一部分信息。要如何加工样本，才能尽可能多地删掉无用信息，保留尽可能多的有效信息——或者更进一步地，保留全部的有效信息呢？这需要我们对有效和无效作出定义上的区分。

众所周知，信息是有效的还是无效的，取决于我们要使用信息来做什么。比如说想判断第二天的气温来看看应该穿什么衣服，那么“明天会下雨”这个信息就是有效的，而“奥运会将在2021年开”这个信息就无效了。现在我们想要使用信息来对参数作估计，拥有的全部信息就是样本观测，要保留全部的有效信息，必须将样本按一定方式加工成统计量。

充分统计量的定义就为此而生，它的定义是：对于统计量\(T=T(\boldsymbol{X})\)，如果在已知\(T\)的条件下样本\(\boldsymbol{X}\)的条件分布与待估参数\(\theta\)无关，则称\(T(\boldsymbol{X})\)是\(\theta\)的充分统计量。

这也就是说，如果给定了\(T\)，则\(\boldsymbol{X}|T\)的联合分布（联合密度）中甚至不含有\(\theta\)，自然不包含\(\theta\)的任何信息，因此在给定\(T\)的情况下再关注\(\boldsymbol{X}\)是没有必要的。这就是充分性的由来。

我们貌似是第一次出现\(T=T(\boldsymbol{X})\)这种记法，但它应该不至于太陌生。事实上这里左右两边的\(T\)代表不一样的意思，右边的\(T\)是一个\(n\)元函数\(T(x_1,\cdots,x_n)\)，而\(\boldsymbol{X}=(X_1,\cdots,X_n)\)就是它的取值，因此\(T(\boldsymbol{X})\)代表了一个样本的函数，也就是一个统计量，这个统计量用\(T\)表示。

另外，别忘了样本的两重性，由于样本\(\boldsymbol{X}\)在观测前是一个\(n\)维随机向量，所以必然有联合密度函数，由此，条件分布也就可以理解了。

现在，我们来验证正态分布的样本均值是一个充分统计量，也就是要证明

\[f(X_1,\cdots,X_n|\bar X) \]

与\(\theta\)无关。直接计算较为不便，我们在探究\(\bar X,S^2\)的分布时引入过一个正交变换\(\boldsymbol{Y}=A\boldsymbol{X}\)，并且成功得出了\(Y_1=\sqrt{n}\bar X\)。由于正交变换是可逆的，所以\(\boldsymbol{X}\)和\(\boldsymbol{Y}\)两组样本可相互转换，没有丢失任何信息。既然如此，我们只需要证明给定\(Y_1\)的情况下，\(\boldsymbol{Y}|Y_1\)的联合分布与\(\mu\)是无关的即可。此时

\[Y_1\sim N(\sqrt{n}\mu,\sigma^2),\quad Y_i\sim N(0,\sigma^2). \]

又因为\(Y_1,\cdots,Y_n\)相互独立，所以\(\boldsymbol{Y}\)的联合密度为

\[f(\boldsymbol{y})=f_1(y_1)f_2(y_2)\cdots f_n(y_n),\\ \]

这里每一个\(f_i(y_i)\)是\(Y_i\)的边缘密度。于是条件密度为

\[f(\boldsymbol y|y_1)=\frac{f(\boldsymbol{y})}{f_1(y_1)}=f_2(y_2)\cdots f_n(y_n), \]

显然\(f(\boldsymbol{y}|y_1)\)与\(\mu\)无关，故\(Y_1\)是\(\mu\)的充分统计量。

如果直接从\(\boldsymbol X\)的联合密度入手，则不如从\(T=n\bar X\)入手，引入一个这样的一一变换：

\[Y_1=X_1,\\ \vdots \\ Y_{n-1}=X_{n-1},\\ Y_n=X_1+X_2+\cdots+X_n. \]
这个变换的Jacobi行列式是\(|J|=1\)。要验证\(Y_n\)对于\(\mu\)的充分性，只要求出

\[f_{\boldsymbol{Y}}(\boldsymbol y|y_n)=\frac{f_{\boldsymbol{Y}}(\boldsymbol{y})}{f_n(y_n)} \]
即可。计算过程较为繁琐，这里就不写了。

在上面引用块中提到的一一变换构造法，可以用定义来验证一个统计量是否是充分的。为作对比，我们也可以看一个非充分统计量：\(X_1\)。它的条件密度是

\[f(\boldsymbol x|x_1)=\frac{f(\boldsymbol x)}{f_1(x_1)}=f_2(x_2)\cdots f_n(x_n), \]

这里每一个\(f_i(x_i)\)是\(X_i\)的边缘密度。显然，这个条件密度里含有\(\mu\)，所以\(X_1\)不是\(\mu\)的充分统计量。

Part 2：因子分解定理

如果用定义验证某个统计量是充分的，则一般要经历以下几个步骤：

构造一个一一变换，用目标统计量替代\(X_n\)；
计算一一变换后的随机向量的概率密度函数；
计算条件密度，观察是否与待估参数有关。

这每一步，都可能具有很大的计算量，比如第一步要计算变换的Jacobi行列式，第二步要代入原联合密度，第三步要计算条件密度。所以用定义来验证某个统计量是否充分，是比较繁琐的。

因子分解定理提供了一种验证统计量是否充分的简单方式，是一个十分重要的定理，其证明略显复杂，可以跳过。定理内容是这样的：

设样本\(\boldsymbol{X}\)的联合密度函数或联合分布列\(f(\boldsymbol{x},\theta)\)依赖于参数\(\theta\)，\(T=T(\boldsymbol{X})\)是一个统计量，则\(T\)为充分统计量的充要条件是\(f(\boldsymbol{x},\theta)\)可以分解为

\[f(\boldsymbol{x},\theta)=g(T(\boldsymbol{x}),\theta)h(\boldsymbol{x}). \]

这里要注意，是样本的联合密度函数或者联合分布列，千万别拿总体的密度就直接做了。这样的分解形式，指的是样本中跟\(\theta\)有关的部分都可以被打包成统计量\(T(X)\)的形式。具体到正态分布上，正态分布的联合概率密度函数为

\[\begin{aligned} f(\boldsymbol{x})&=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\}\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{\sum_{j=1}^n x_j^2-2\mu\sum_{j=1}^n x_j+n\mu^2}{2\sigma^2} \right\}\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{\sum_{j=1}^n x_j^2+n\mu^2}{2\sigma^2} \right\}\exp\left(\frac{n\mu\bar x}{\sigma^2} \right)\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^ne^{-\frac{n\mu^2}{2\sigma^2}}\exp\left\{\frac{n\mu\bar x}{\sigma^2} \right\}\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n x_j^2 \right\}. \end{aligned} \]

对参数\(\mu\)的估计问题，可以不用考虑\(\sigma^2\)（即视为已知常数），有如下分解：

\[g(t,\mu)=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^ne^{-\frac{n\mu^2}{\sigma^2}}e^{\frac{nt\mu}{\sigma^2}}, \\ h(\boldsymbol{x})=\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^nx_j^2 \right\}. \]

而对参数\(\sigma^2\)的估计问题，则需要考虑\(\mu\)是否已知，可以将\(f(\boldsymbol{x})\)作如下分解：

\[\begin{aligned} f(\boldsymbol{x})&=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\bar x+\bar x-\mu)^2 \right\}\\ &=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{(n-1)s^2-n(\bar x-\mu)^2}{2\sigma^2} \right\} \end{aligned} \]

此时待估参数为\((\mu,\sigma^2)\)，取

\[g((s^2,\bar x),(\mu,\sigma^2))=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{\frac{n(\bar x-\mu)-(n-1)s^2}{2\sigma^2} \right\},\\ h(\boldsymbol{x})=1, \]

即可说明\((\bar X,S^2)\)是\((\mu,\sigma^2)\)的充分统计量，注意此时的参数不止一个。

现在考虑一种特殊的情况：\(\mu\)已知的情况下\(\sigma^2\)的估计，我们会看到此时我们将不需要\(\bar x\)。

\[f(\boldsymbol{x})=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\}, \]
令\(Q=\sum_{j=1}^n (x_j-\mu)^2\)，则\(f(\boldsymbol{x})\)自身已经是因子分解所需的形式，所以\(Q\)是充分统计量。

对\(Q\)作无偏调整，事实上，

\[\frac{Q}{\sigma^2}\sim \chi^2(n), \]
所以

\[\mathbb{E}(Q)=n\sigma^2, \]
无偏调整后\(\sigma^2\)的无偏估计量应该是

\[\frac{Q}{n}=\frac{1}{n}\sum_{j=1}^n(x_j-\mu)^2. \]
容易证明它也是弱相合的。

总之，有了因子分解定理，我们可以用很小的计算量验证某个统计量是充分统计量或不是。同时，因子分解定理更大的作用是，给我们提供了一种寻找充分统计量的方式。对于任何给定的分布，理论上都可以用因子分解定理找充分统计量，再进行一定的调整。

最后，需要指出的是，充分统计量的一一变换仍然是充分统计量，不仅局限于线性变换。用因子分解定理，这个结论是显然的。

Part 3：好的点估计该是什么样的

我们马上要向着非正态分布，向着其他参数分布拓展了。所谓参数分布，就是其分布信息可以完全由有限个参数决定，我们只要用一定的统计量估计出这些个参数，将这些估计量的观测值作为参数的估计。

理论上来说，一个参数可以用任何统计量来估计，比如刚才的方差，我们就在均值已知、未知的情况下提出了两个不同的估计量：

\[\frac{Q}{n}=\frac{1}{n}\sum_{j=1}^n(X_j-\mu)^2,\quad S^2=\frac{1}{n-1}\sum_{j=1}^n(X_j-\bar X)^2. \]

为什么在均值已知的时候，我们就会选择\(Q/n\)而不是\(S^2\)呢？事实上\(S^2\)依然是充分统计量。这就涉及到了统计量的评判问题。

以下是几个常用的估计量评判准则，评价估计量时，一定要说明估计量所估计的参数\(\theta\)是什么。这里，我们假设\(\theta\)的点估计是\(\hat\theta=\hat\theta(\boldsymbol{X})\)：

无偏性：如果\(\mathbb{E}(\hat\theta)=\theta\)，则称\(\hat\theta\)具有无偏性。
有效性：如果\(\mathbb{E}(\hat\theta_1)=\mathbb{E}(\hat\theta_2)=\theta\)，但是\(\mathbb{D}(\hat\theta_1)\le \mathbb{D}(\hat\theta_2)\)，且至少存在一个\(\theta\)使得不等号严格成立，则称\(\hat\theta_1\)比\(\hat\theta_2\)有效。
渐进无偏性：如果\(\mathbb{E}(\hat\theta)\ne \theta\)但\(\mathbb{E}(\hat\theta)\to \theta(n\to \infty)\)，则称\(\hat\theta\)具有渐进无偏性。
相合性：如果\(\hat\theta\stackrel{P}\to \theta\)，则称\(\hat\theta\)具有弱相合性；如果\(\hat\theta\stackrel{\mathrm{a.s.}}\to\theta\)，则称\(\hat\theta\)具有强相合性。

可以看出，前两个性质与样本容量无关，称为小样本性质，后两个性质与样本容量有关，且需要样本容量趋向于无穷大时才能体现出来，称为大样本性质。

对于正态分布的\(\bar X\)和\(S^2\)，我们已经验证过它们的无偏性与弱相合性，事实上对于\(\bar X\)，由柯尔莫哥洛夫强大数定律，它是强相合于总体均值\(\mu\)的。而有效性，依赖于更多的知识，这里就不展开讨论了。

柯尔莫哥洛夫强大数定律：设\(\{\xi_n\}\)是定义在概率空间\((\Omega,\mathscr F,\mathbb{P})\)上的独立同分布随机变量序列，且\(\mathbb{E}|\xi_1|<\infty\)。记\(\mathbb{E}(\xi_1)=\mu\)，则

\[\frac{1}{n}\sum_{j=1}^n \xi_j\stackrel{\mathrm{a.s.}}\to\mu. \]

下一篇文章中，我们会运用因子分解定理对许多常见的参数分布作参数估计，为日后讨论点估计的更多性质打下基础。

posted @ 2021-02-01 00:23 江景景景页阅读(3730) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

江景景景页

数理统计3：充分统计量，因子分解定理，点估计的评判标准

Part 1：充分统计量

Part 2：因子分解定理

Part 3：好的点估计该是什么样的

公告