数理统计8:点估计的有效性、一致最小方差无偏估计(UMVUE)、零无偏估计法
在之前的学习中,主要基于充分统计量给出点估计,并且注重于点估计的无偏性与相合性。然而,仅有这两个性质是不足的,无偏性只能保证统计量的均值与待估参数一致,却无法控制统计量可能偏离待估参数的程度;相合性只能在大样本下保证统计量到均值的收敛性,但却对小样本情形束手无策。今天我们将注重于统计量的有效性,即无偏统计量的抽样分布的方差。由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!
Part 1:一致最小方差无偏估计
首先考虑这样的问题:如何刻画一个统计量的有效程度?注意到,一个统计量的取值既可能高于待估参数,亦可能低于待估参数,要综合考虑统计量对待估参数误差,需要用平方均衡这种双向偏差,因此,提出均方误差的概念:若ˆg(X)^g(X)是g(θ)g(θ)的估计量,则ˆg(X)^g(X)的均方误差定义为
对于确定的统计量ˆg(X)^g(X)而言,MSE(ˆg(X))MSE(^g(X))是θθ的函数。显然,一个统计量的均方误差越小,它就越在待估参数真值附近环绕,由此,用统计量的一次观测值作为待估参数的估计就有着越大的把握。
如果对于g(θ)g(θ)的两个估计量ˆg1(X)^g1(X)和ˆg2(X)^g2(X),恒有MSE(ˆg1(X))≤MSE(ˆg2(X))MSE(^g1(X))≤MSE(^g2(X)),且严格不等号至少在某个θθ处成立,就称ˆg1(X)^g1(X)在均方误差准则下优于ˆg2(X)^g2(X)。如果我们能找到均方误差最小的统计量ˆg(X)^g(X),就相当于找到了均方误差准则下的最优统计量。
不过,均方误差是θθ的函数,这就导致了某些统计量在θ=θ1θ=θ1时均方误差小,在θ=θ2θ=θ2时均方误差大,一致最小均方误差估计量便不存在,需要增加约束条件,找到更可能存在的“最优”。
基于此,我们提出一致最小方差无偏估计(UMVUE)的概念,它将g(θ)g(θ)的估计量限制在了无偏估计之中,这使得UMVUE的存在可能性得以提高。并且,由于E(ˆg(X))=g(θ)E(^g(X))=g(θ),所以
即无偏估计的均方误差就是无偏估计的方差。
不过首先要提出的是,UMVUE往往比一致最小均方误差估计量更容易存在,但依然不是所有参数都存在UMVUE的,并且,甚至可能有的参数根本不存在无偏估计。
以下是一个典型的不存在无偏估计的例子:X∼B(n,p)X∼B(n,p),参数g(p)=1/pg(p)=1/p的无偏估计不存在。书上给出的证明过程如下:
首先,无偏估计不依赖于样本容量,故假设n=1n=1。若g(p)g(p)有无偏估计ˆg(X)^g(X),则由于X=0,1,⋯,nX=0,1,⋯,n,故ˆg(X)^g(X)的取值只可能是a0,a1,⋯,ana0,a1,⋯,an,可以写出其期望为
E(ˆg(X))=n∑j=0ajCjnpj(1−p)n−j,E(^g(X))=n∑j=0ajCjnpj(1−p)n−j,当ˆg(X)^g(X)为无偏估计时,成立以下等式:
n∑j=0ajCjnpj(1−p)n−j=1p,n∑j=0ajCjnpj(1−p)n−j=1p,即对于某个多项式f∈Pn+1(R)f∈Pn+1(R),有
f(p)=0,∀p∈(0,1).f(p)=0,∀p∈(0,1).显然,要使上式恒成立,除非ff为零多项式。但ff并不是零多项式,这意味着f(p)=0f(p)=0只会在至多n+1n+1个点处成立,这与无偏性要求矛盾。因此,g(p)=1/pg(p)=1/p不存在无偏估计。
我们将存在无偏估计的待估参数称为可估参数,因此UMVUE仅对可估参数作讨论。我们的任务,就是用一定的方法,找到可估参数的UMVUE。
Part 2:改进无偏估计量
无偏估计量有许多,比如正态分布N(μ,σ2)N(μ,σ2)中,μμ的无偏估计就有X1,2X2−X1,ˉXX1,2X2−X1,¯X等。充分统计量的条件期望法是改进无偏估计量的一个典型方式,它基于如下的定理:设T=T(X)T=T(X)是一个充分统计量,ˆg(X)^g(X)是g(θ)g(θ)的一个普通无偏估计量,则h(T)=E[ˆg(X)|T]h(T)=E[^g(X)|T]是g(θ)g(θ)的无偏估计,且
等号成立当且仅当ˆg(X)=h(T)^g(X)=h(T)是均方条件下成立的。它的证明不是很有必要掌握,权当了解。
因为TT是g(θ)g(θ)的充分统计量,故E(ˆg(X)|T)E(^g(X)|T)与待估参数g(θ)g(θ)无关,可以作为统计量,即
h(T)=E(ˆg(X)|T)h(T)=E(^g(X)|T)是合理定义的统计量。下证其无偏性,由全期望公式,有
E(h(T))=E[E(ˆg(X)|T)]=E(ˆg(X))=g(θ).E(h(T))=E[E(^g(X)|T)]=E(^g(X))=g(θ).最后证明其比ˆg(X)^g(X)更有效,利用一个常用的拆分技巧,得到
D(ˆg(X))=D[ˆg(X)−h(T)+h(T)]=D(h(T))+D(ˆg(X)−h(T))+2Cov(h(T),ˆg(X)−h(T)),D(^g(X))=D[^g(X)−h(T)+h(T)]=D(h(T))+D(^g(X)−h(T))+2Cov(h(T),^g(X)−h(T)),然后证明交叉项为0,这里需要再次用到全期望公式,有
Cov(h(T),ˆg(X)−h(T))=E[h(T)−g(θ)][ˆg(X)−h(T)]=E[E[(h(T)−g(θ))(ˆg(X)−h(T))|T]]=E[(h(T)−g(θ))(E(ˆg(X)|T)−h(T)]=0.Cov(h(T),^g(X)−h(T))=E[h(T)−g(θ)][^g(X)−h(T)]=E[E[(h(T)−g(θ))(^g(X)−h(T))|T]]=E[(h(T)−g(θ))(E(^g(X)|T)−h(T)]=0.最后的等号是因为h(T)=E(ˆg(X)|T)h(T)=E(^g(X)|T),于是代回就得到
D(ˆg(X))=D(h(T))+D(ˆg(X)−h(T))≥D(h(T)).D(^g(X))=D(h(T))+D(^g(X)−h(T))≥D(h(T)).等号成立当且仅当D(ˆg(X)−h(T))2=E(ˆg(X)−h(T))2=0D(^g(X)−h(T))2=E(^g(X)−h(T))2=0。
这个定理的重要意义在于,如果给定的无偏估计量不是充分统计量的函数,则可以通过条件期望法,将其转变成一个充分统计量的函数作为新的统计量,并且新的统计量总是更有效的。此外,这也对我们寻找UMVUE提出启示:UMVUE一定是充分统计量的函数。如果不然,则可以通过对充分统计量求期望,得到一个更有效的统计量。
不过,改进后的充分统计量函数,尽管是更为有效的参数估计,但却并不一定是UMVUE,下面的定理将给出一个验证点估计是否为UMVUE的方法。
Part 3:零无偏估计法
零无偏估计法是用于判断某个估计量是否为UMVUE的方法,为此,首先要提出什么是零无偏估计。顾名思义,零无偏估计即零的无偏估计量,对某个统计量l(X)l(X),如果有E(l(X))=0E(l(X))=0,则称l(X)l(X)是一个零无偏估计量;如果统计量TT是待估参数g(θ)g(θ)的充分统计量,且E(h(T))=0E(h(T))=0,则h(T)h(T)也称为g(θ)g(θ)的零无偏估计量。
零无偏估计法的思想、证明过程都与上述的充分统计量条件期望法类似。如果ˆg(X)^g(X)是UMVUE,则对于任意其他无偏估计ˆg1(X)^g1(X),都可以视为ˆg1(X)=ˆg(X)+l(X)^g1(X)=^g(X)+l(X),显然这里E(l(X))=0E(l(X))=0,要使ˆg1(X)^g1(X)的方差大于ˆg(X)^g(X),可以进行拆分,即
如果最后的协方差项为0,则必有D(ˆg1(X))≥D(ˆg(X))D(^g1(X))≥D(^g(X))。综合以上讨论,给出零无偏估计法验证UMVUE的方式。
设ˆg(X)^g(X)是g(θ)g(θ)的一个无偏估计,D(ˆg(X))<∞D(^g(X))<∞,对任何θ∈Θθ∈Θ,若对任何零无偏估计l(X)l(X)都有
则ˆg(X)^g(X)是g(θ)g(θ)的UMVUE。
如果ˆg(X)^g(X)满足与任何零无偏估计无关,则它是UMVUE,这是一个充分条件。但反之,它也是一个必要条件,即UMVUE必定与任何零无偏估计量无关。
如果不然,设Cov(ˆg(X),l(X))=b(θ)≠0Cov(^g(X),l(X))=b(θ)≠0,则可以假设D(l(X))=a2(θ)>0D(l(X))=a2(θ)>0。现在固定θ=θ0θ=θ0为常数,并设a(θ0)=a,b(θ0)=ba(θ0)=a,b(θ0)=b,只要
D(l(X))+2Cov(ˆg(X),l(X))=a2(θ0)+2b(θ0)=a2+2b<0,D(l(X))+2Cov(^g(X),l(X))=a2(θ0)+2b(θ0)=a2+2b<0,就能找到一个在θ=θ0θ=θ0处,比ˆg(X)^g(X)方差更小的无偏估计,那么ˆg(X)^g(X)就不是UMVUE。注意到,如果l(X)l(X)是零无偏估计,则∀k≠0∀k≠0,kl(X)kl(X)也是零无偏估计,就有
D(kl(X))+2Cov(ˆg(X),kl(X))=k2a2+2bk,D(kl(X))+2Cov(^g(X),kl(X))=k2a2+2bk,取kk值为
{−2ba<k<0,b>0;0<k<−2ba,b<0.{−2ba<k<0,b>0;0<k<−2ba,b<0.就使得k2a2+2bk<0k2a2+2bk<0成立,于是
ˆg1(X)def=ˆg(X)+kl(X)^g1(X)def===^g(X)+kl(X)是g(θ)g(θ)的无偏估计量,且当θ=θ0θ=θ0时D(ˆg1(X))<D(ˆg(X))D(^g1(X))<D(^g(X)),故ˆg(X)^g(X)不是UMVUE。
有了这个方法,我们可以验证一些常用的充分统计量是UMVUE了。现以正态分布N(μ,σ2)N(μ,σ2)的充分统计量(ˉX,S2)(¯X,S2)为例,它们是否是UMVUE呢?如果直接验证会稍显繁琐,对零无偏估计法稍加修改可以得到以下的推论:
如果TT是充分统计量且h(T)h(T)是g(θ)g(θ)的一个无偏估计,对任何θ∈Θθ∈Θ与一切零无偏估计量δ(T)δ(T)都有
则h(T)h(T)是UMVUE。
这里只是将样本的函数改成了充分统计量的函数,以上证明过程是依然适用的。并且,由于UMVUE一定是充分统计量的函数,因此这个推论会更有应用意义。
对于正态分布而言,充分统计量可以视为
由于T1,T2独立,所以其联合密度函数容易写出,有
如果δ(t1,t2)是零均值的,则有
令exp部分为H(μ,σ2),也就是我们获得了这个关键的等式(它是证明的核心):
要验证E(t1,δ(t1,t2))与E(t2,δ(t1,t2))是否为0,先从第一个入手,写出其表达式为
要验证E(t1,δ(t1,t2))=0,实际上就是验证
不要被这个庞然大物吓到,事实上我们唯一的条件只有E(δ(t1,t2))=0所对应的等式,注意到上面的等式无论μ,σ的真值是多少都应该成立,所以是μ,σ的二元函数,我们能做的事也很有限——对参数求导。这里涉及到了求导与积分是否可交换的问题,我们姑且不考虑,默认视为可交换即可,由于σ2很复杂,所以对μ求导即可。唯一含有μ的项是积分号中间的exp部分,其导数为
于是就有
将求导后得到的式子展开,提取出参数并代入上面的结果,就有
也就说明了E(t1,δ(t1,t2))=0,由δ(t1,t2)的任意性以及T1的无偏性,可知ˉX是μ的UMVUE。
下一步证明T2/(n−1)是σ2的UMVUE,也就是证明E(t2,δ(t1,t2))=0,同样写出需要验证的等式为
现在我们尝试将关键的等式对σ2求导,同样,先计算H对σ2的偏导,有
可以看到,这里除了出现已经确认代入能为0的常数项和t1外,还多了t21与t2的项,t2就是我们的目标,所以再处理一下t21这一项。显然,对μ求导一次能得到t1的一次项,那么对μ求二阶导,就能得到t21项,所以
这样就出现了需要的t21项,剩下的工作只有繁琐的代入计算而已,我们实际上已经完成了证明的主要步骤,因此S2也是σ2的UMVUE。
对于一元连续或离散情形下UMVUE的验证,难度要比二元情形下小得多,因此读者只要掌握了正态分布的零无偏估计法验证,理论上其他UMVUE的验证便不成问题。读者可以自己尝试其他UMVUE的验证。
今天,我们提出了UMVUE的概念,重点在于利用充分统计量改进普通的无偏估计,并且利用零无偏估计法验证某个充分统计量函数是否是UMVUE。但是,我们并没有给出寻找UMVUE的方法,如果依靠感觉没有方向地寻找再一个个验证是否为UMVUE,是十分繁琐且难以成功的。比如对于B(1,p)的参数估计g(p)=p(1−p),如果用先猜想后验证的方法来寻找UMVUE,甚至没有入手点。
因此,明天我们将学习寻找UMVUE的方法,并介绍一个被我们忽略已久的概念——指数族。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具