数理统计3:充分统计量,因子分解定理,点估计的评判标准

上一章的末尾提到,我们应当选择全部的样本来进行参数估计,而不是只选择部分的样本。那么什么叫做选择全部的样本呢?它的定义标准是什么?这就是今天要探讨的充分统计量问题。由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢

Part 1:充分统计量

对参数进行估计,要使用从样本加工而来的统计量,这是一种对样本的信息提取。但我们知道,加工在简化信息结构的同时,肯定也丢失了一部分信息。要如何加工样本,才能尽可能多地删掉无用信息,保留尽可能多的有效信息——或者更进一步地,保留全部的有效信息呢?这需要我们对有效和无效作出定义上的区分。

众所周知,信息是有效的还是无效的,取决于我们要使用信息来做什么。比如说想判断第二天的气温来看看应该穿什么衣服,那么“明天会下雨”这个信息就是有效的,而“奥运会将在2021年开”这个信息就无效了。现在我们想要使用信息来对参数作估计,拥有的全部信息就是样本观测,要保留全部的有效信息,必须将样本按一定方式加工成统计量。

充分统计量的定义就为此而生,它的定义是:对于统计量T=T(X),如果在已知T的条件下样本X的条件分布与待估参数θ无关,则称T(X)θ的充分统计量。

这也就是说,如果给定了T,则X|T的联合分布(联合密度)中甚至不含有θ,自然不包含θ的任何信息,因此在给定T的情况下再关注X是没有必要的。这就是充分性的由来。

我们貌似是第一次出现T=T(X)这种记法,但它应该不至于太陌生。事实上这里左右两边的T代表不一样的意思,右边的T是一个n元函数T(x1,,xn),而X=(X1,,Xn)就是它的取值,因此T(X)代表了一个样本的函数,也就是一个统计量,这个统计量用T表示。

另外,别忘了样本的两重性,由于样本X在观测前是一个n维随机向量,所以必然有联合密度函数,由此,条件分布也就可以理解了。

现在,我们来验证正态分布的样本均值是一个充分统计量,也就是要证明

f(X1,,Xn|X¯)

θ无关。直接计算较为不便,我们在探究X¯,S2的分布时引入过一个正交变换Y=AX,并且成功得出了Y1=nX¯。由于正交变换是可逆的,所以XY两组样本可相互转换,没有丢失任何信息。既然如此,我们只需要证明给定Y1的情况下,Y|Y1的联合分布与μ是无关的即可。此时

Y1N(nμ,σ2),YiN(0,σ2).

又因为Y1,,Yn相互独立,所以Y的联合密度为

f(y)=f1(y1)f2(y2)fn(yn),

这里每一个fi(yi)Yi的边缘密度。于是条件密度为

f(y|y1)=f(y)f1(y1)=f2(y2)fn(yn),

显然f(y|y1)μ无关,故Y1μ的充分统计量。

如果直接从X的联合密度入手,则不如从T=nX¯入手,引入一个这样的一一变换:

Y1=X1,Yn1=Xn1,Yn=X1+X2++Xn.

这个变换的Jacobi行列式是|J|=1。要验证Yn对于μ的充分性,只要求出

fY(y|yn)=fY(y)fn(yn)

即可。计算过程较为繁琐,这里就不写了。

在上面引用块中提到的一一变换构造法,可以用定义来验证一个统计量是否是充分的。为作对比,我们也可以看一个非充分统计量:X1。它的条件密度是

f(x|x1)=f(x)f1(x1)=f2(x2)fn(xn),

这里每一个fi(xi)Xi的边缘密度。显然,这个条件密度里含有μ,所以X1不是μ的充分统计量。

Part 2:因子分解定理

如果用定义验证某个统计量是充分的,则一般要经历以下几个步骤:

  1. 构造一个一一变换,用目标统计量替代Xn
  2. 计算一一变换后的随机向量的概率密度函数;
  3. 计算条件密度,观察是否与待估参数有关。

这每一步,都可能具有很大的计算量,比如第一步要计算变换的Jacobi行列式,第二步要代入原联合密度,第三步要计算条件密度。所以用定义来验证某个统计量是否充分,是比较繁琐的。

因子分解定理提供了一种验证统计量是否充分的简单方式,是一个十分重要的定理,其证明略显复杂,可以跳过。定理内容是这样的:

设样本X联合密度函数或联合分布列f(x,θ)依赖于参数θT=T(X)是一个统计量,则T为充分统计量的充要条件f(x,θ)可以分解为

f(x,θ)=g(T(x),θ)h(x).

这里要注意,是样本的联合密度函数或者联合分布列,千万别拿总体的密度就直接做了。这样的分解形式,指的是样本中跟θ有关的部分都可以被打包成统计量T(X)的形式。具体到正态分布上,正态分布的联合概率密度函数为

f(x)=(12πσ2)nexp{12σ2j=1n(xjμ)2}=(12πσ2)nexp{j=1nxj22μj=1nxj+nμ22σ2}=(12πσ2)nexp{j=1nxj2+nμ22σ2}exp(nμx¯σ2)=(12πσ2)nenμ22σ2exp{nμx¯σ2}exp{12σ2j=1nxj2}.

对参数μ的估计问题,可以不用考虑σ2(即视为已知常数),有如下分解:

g(t,μ)=(12πσ2)nenμ2σ2entμσ2,h(x)=exp{12σ2j=1nxj2}.

而对参数σ2的估计问题,则需要考虑μ是否已知,可以将f(x)作如下分解:

f(x)=(12πσ2)nexp{12σ2j=1n(xjx¯+x¯μ)2}=(12πσ2)nexp{(n1)s2n(x¯μ)22σ2}

此时待估参数为(μ,σ2),取

g((s2,x¯),(μ,σ2))=(12πσ2)nexp{n(x¯μ)(n1)s22σ2},h(x)=1,

即可说明(X¯,S2)(μ,σ2)的充分统计量,注意此时的参数不止一个。

现在考虑一种特殊的情况:μ已知的情况下σ2的估计,我们会看到此时我们将不需要x¯

f(x)=(12πσ2)nexp{12σ2j=1n(xjμ)2},

Q=j=1n(xjμ)2,则f(x)自身已经是因子分解所需的形式,所以Q是充分统计量。

Q作无偏调整,事实上,

Qσ2χ2(n),

所以

E(Q)=nσ2,

无偏调整后σ2的无偏估计量应该是

Qn=1nj=1n(xjμ)2.

容易证明它也是弱相合的。

总之,有了因子分解定理,我们可以用很小的计算量验证某个统计量是充分统计量或不是。同时,因子分解定理更大的作用是,给我们提供了一种寻找充分统计量的方式。对于任何给定的分布,理论上都可以用因子分解定理找充分统计量,再进行一定的调整。

最后,需要指出的是,充分统计量的一一变换仍然是充分统计量,不仅局限于线性变换。用因子分解定理,这个结论是显然的。

Part 3:好的点估计该是什么样的

我们马上要向着非正态分布,向着其他参数分布拓展了。所谓参数分布,就是其分布信息可以完全由有限个参数决定,我们只要用一定的统计量估计出这些个参数,将这些估计量的观测值作为参数的估计。

理论上来说,一个参数可以用任何统计量来估计,比如刚才的方差,我们就在均值已知、未知的情况下提出了两个不同的估计量:

Qn=1nj=1n(Xjμ)2,S2=1n1j=1n(XjX¯)2.

为什么在均值已知的时候,我们就会选择Q/n而不是S2呢?事实上S2依然是充分统计量。这就涉及到了统计量的评判问题。

以下是几个常用的估计量评判准则,评价估计量时,一定要说明估计量所估计的参数θ是什么。这里,我们假设θ的点估计是θ^=θ^(X)

  1. 无偏性:如果E(θ^)=θ,则称θ^具有无偏性。
  2. 有效性:如果E(θ^1)=E(θ^2)=θ,但是D(θ^1)D(θ^2),且至少存在一个θ使得不等号严格成立,则称θ^1θ^2有效。
  3. 渐进无偏性:如果E(θ^)θE(θ^)θ(n),则称θ^具有渐进无偏性。
  4. 相合性:如果θ^Pθ,则称θ^具有弱相合性;如果θ^a.s.θ,则称θ^具有强相合性。

可以看出,前两个性质与样本容量无关,称为小样本性质,后两个性质与样本容量有关,且需要样本容量趋向于无穷大时才能体现出来,称为大样本性质

对于正态分布的X¯S2,我们已经验证过它们的无偏性与弱相合性,事实上对于X¯,由柯尔莫哥洛夫强大数定律,它是强相合于总体均值μ的。而有效性,依赖于更多的知识,这里就不展开讨论了。

柯尔莫哥洛夫强大数定律:设{ξn}是定义在概率空间(Ω,F,P)上的独立同分布随机变量序列,且E|ξ1|<。记E(ξ1)=μ,则

1nj=1nξja.s.μ.


下一篇文章中,我们会运用因子分解定理对许多常见的参数分布作参数估计,为日后讨论点估计的更多性质打下基础。

posted @   江景景景页  阅读(4667)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
点击右上角即可分享
微信分享提示
主题色彩