【数理统计基础】 04 - 假设检验

  参数估计(尤其点估计)是数理统计中的基本问题,在此基础上还需要有进一步的应用,其中比较常见就是问题就是所谓“假设检验”。具体来说,通过样本可以知道原分布的一些信息,之后可以利用这些信息进行一些决策,而其中一类决策依赖于对分布(参数)的硬性“假设”。假设检验问题非常普遍,因此它和参数估计并称为数理统计的两大问题。但这里我还是想强调,假设检验问题本身就是对参数估计的应用,在强调它们的差异的同时,也要注意两者之间的联系。

1. 参数检验

1.1 贝叶斯方法

  关于参数的假设一般是关于参数的(不)等式H0(有时也把符合条件的全体参数记作H0),它被称为统计假设。相应地,其逆条件被记作H1,它被称为对立假设,这时的原条件也可称为原假设。为了判断假设是否成立,需要从样本(统计量)中获取信息。但要注意,概率模型中能得到的仅有概率信息,在决策模型中还必须有个奖惩函数,奖惩和概率相结合才能作出符合实际的决策(这是我捏造的词,高等数理统计中会有完整的理论体系,这里不讨论)。

  初等教材上不会强调奖惩信息在模型的中的地位,这会导致决策的“唯概率论”错误。我们多次强调,概率统计只负责其自身逻辑,实际问题中并不仅是统计模型,还需要看清问题的全部。奖惩信息的制定与具体问题有关,可能另有理论支持,也可能只需经验值或粗略设定,但这已经和概率统计无关。故下面的论述中,我只是会不断提醒,但不能深入讨论如何制定奖惩信息。

  我们要面对的假设一般是θ=θ0,θ>θ0,θ[θ1,θ2]之类的(不)等式,为了验证这个假设是否成立,需要制定一个只与样本有关的判定准则Ψ(X1,,Xn)。它一般也是一个(不)等式,理论上这个准则中应当含有奖惩信息,而这个判定过程被称为假设检验

  这里先用贝叶斯方法来说明所有概念。前面已经知道,贝叶斯方法给出参数的全部已知信息,它以统一而简洁的形式给出了参数的分布。在得到样本信息后,通过固定的计算便得到了参数θ的分布p(x)。为了检验假设H0,直觉上选择的准则Ψ应当是:p(x)H0上的积分大于1/2 。对于θ=θ0这样的假设,则应当改写成适当的区间θ[θ0ε,θ0+ε],这样才更符合实际。

  但这种不带奖惩信息的判断准则Ψ在实际中很难使用,还需要根据情况选定一个奖惩函数h(θ),以式(1)作为假设成立的判断准则。奖惩函数的选择一定是根据现实需求的,如果更希望满足H0的参数不被淘汰,则p(θ)H0上选取偏大的奖励;如果更希望满足H1的参数不被选中,则p(θ)H1上选取偏大的惩罚(负值)。而对θ=θ0这样的假设,只需在θ0周围设定适当的奖励即可。回过头去看,直觉上的1/2准则其实就是取式(2)的奖惩函数。

(1)Ψ:h(θ)p(θ)dθ>0

(2)h(θ)={1,θH01,θH1

  最后来分析一下正态分布N(μ,σ)μ,σ均未知)中μ的后验分布,先验分布取广义密度函数f(μ,σ)=σ1(均值取均分、方差取σ1)。利用贝叶斯法计算μ的后验分布(计算过程中只需关注变量部分,证明细节请参考教材),则可以得到式(3)的结论,它和点估计中的结论殊路同归,但本质意义不同。

(3)n(μX¯)Stn1

1.2 功效函数

  鉴于贝叶斯方法的故有缺陷(先验概率难以确定),我们还是要从直观的角度重新分析一遍假设检验的问题,上面提到的大部分概念和思想仍然有用。现在不能再把参数θ当做一个随机变量,但仍然可以在每一个θ下来评估检验Ψ。具体来说,对于事先制定的检验Ψ,可以计算出在不同θ下检验为否定的概率βΨ(θ),它被称为功效函数。如果检验Ψ使得功效函数满足式(4),它便称为水平α的检验

(4)βΨ(θ)α,(θH0)

  对于分析问题而言,功效函数的作用和后验概率是一样的,不同的是,它不依赖于先验概率。有两点需要说明,一个是功效函数为什么采用的是否定的概率?我个人觉得还是肯定的概率更方便使用,也许是为了能直接查表吧。另一个是教材中同样没有引入奖惩函数,而是默认为一些常用场景(检验水平的概念就是只强调H0的接收率),我觉得会造成学习者的困惑。带着奖惩函数的概念,教材上一些策略的描述也许会更加清晰。

  下面从最简单的场景讨论起,以此体验以上概念的含义,以及检验的具体方法。首先对正态分布N(μ,σ2),假定σ已知,要想对μμ0进行检验。最容易想到的检验方法自然是当X¯C时接受假设,其中常数C待定。先来计算检验的功效函数,前面已知X¯满足分布N(μ,σ2/n),功效函数既是X¯<C的概率。

  在这里我们再次碰到不等式的概率问题,自然地联想到上篇的枢轴变量法。不难得到功效函数为Φ(n(Cμ)/σ),可以画出它的图像大致如下。为了得到检验水平α,只需Cμ0σu(α)/n,最终得到式(5)的检验。但从图中看出,在保证检验水平α的条件下,要使得H1的功效函数(一致地)足够大是不可能的,尤其在临界点μ0处。所以原假设和对立假设都达到一定水平的检验往往是不存在的,这就必须根据实际问题进行取舍,粗略的奖惩函数是必须的。

(5)Ψ:n(X¯μ0)σu(α)

  以上我们给出了寻找检验方法的步骤:先根据假设的特点确定检验的大致形式(带参数),然后算出功效函数,最后确定参数以满足检验水平。有时这个过程中的计算会比较繁琐,但式(5)可以给我们一些启发,它在μ=μ0时取等号且有很直观的意义。先用枢轴变量直接在临界点找到满足精度的等式,然后根据检验的大致形式把等式改为不等式,最后再回头验证功效函数的局部单调性。当σ未知时,按照这个思路只需把式(5)中的u(α)换成tn(α)即可,但还要注意证明功效函数的单调性。

  对于假设μμ0μ=μ0,也有类似的结论。关于正态分布,比较常见的假设还有两个分布均值的比较μ1μ20,以及不太常用的方差假设,包括单分布的方差假设σ2σ02,和两个分布方差比的假设σ12/σ22c。关于它们的枢轴变量都已经在上一篇介绍过,请自行写出检验方法和功效函数。

1.3 特殊分布检验

  现在再来聊聊正态分布之外的常见分布,它们各自有自己的形式特点,不一定能用枢轴变量法简单求解。对于实在难办的问题,如果样本足够大,可以借助中心极限定理,这也是为什么我们要弄清楚正态分布的假设检验。

  对于离散分布,更是不能使用枢轴变量,边界值只能取近似的整数。二项分布的计算比较麻烦,最好是借助极限定理近似。对于泊松分布,由于可加性,只需进行一次采样(时长大一点会较好)。计算临界值值会比较麻烦,但利用其形式特点,容易有式(6)成立(Kn(x)χn2的分布函数),这样通过查表即可确定k的值。

(6)i=0kλieλi!=λtketk!dt=1K2k+2(2λ)

  其它连续分布中,指数分布恰巧有枢轴变量2λXχ2,因此参数的假设可以利用2nλX¯χ2n2来检验。但注意到指数分布本质是一个时间分布,它有无限大的可能值,这对实际采样造成了无法控制的困难。现实中只能限定试验时间或限定事件发生次数,其中前者比后者更可控,但精度上也会损失更多。这样的方法称为截尾法,可以假定n个独立试验同时进行,具体分为定时截尾法定量截尾法

  先来看简单一点的定量截尾法,就是当第r个事件发生时停止试验,检验时必须充分利用已有的试验数据,因此对已发生的事件都要记录下时间。先来看一个简单的结论,记YXi的最小值,它是一个随机变量。可以算得Y的分布函数是1eλnx,从而有式(7)成立。

(7)Y=min{Xi}2nλYχ22

  如果把每个试验的耗时排序成下图,nY便是图中的阴影部分之和,由于指数分布的无记忆性,接下来的n1个事件可以进行同样的讨论。观察在时间Z停止,讨论得到了r个独立的χ22分布。设虚线Z以下的时间和为T,结合式(7)有式(8)成立,这就是我们要的枢轴变量!

(8)T=X1++Xr+(nr)Xr2λTχ2r2

  定时截尾法更便于操作,但却没有式(8)一样的漂亮结论,但可以证明近似地有2λTχ2r+12,其中r为规定时间内发生的事件数。最后提一下,两个截尾法中的r越接近n,检验的精度越高,因此在设计实验时,需要根据经验或观察设定合理的阈值。另外还请注意,结论(7)(8)也可用于参数估计。

1.4 检验标准

  大部分时候,检验方法只关心H0区域的检验级别,但当要比较不同检验优劣的时候,H1区域的否定率便称成为重要的参考。如果在所有α级别的检验中,存在检验Φ0对比任何检验Φ都满足式(9),Φ0便称为一致最优检验。和MVU估计一样,大部分场合下一致最优检验并不存在,即使存在也很难找到。

(9)βΦ0(θ)βΦ(θ),(θH1)

  但对于那些常见的假设问题,却恰巧可以找到一直最优检验,下面来讨论这个问题(仅讨论连续分布,离散类似)。先来看最简单的场景,我们面临的问题是要在两个分布F0,F1中二选一(也就是说θ仅有两个值供选择),检验满足一定条件则判定为服从分布F0(这是原假设H0),否则服从分布F1(对立假设H1)。以下记n次独立试验的联合样本空间为Ω,两个分布生成的联合密度函数分别是g0(x),g1(x)

  水平为α的检验,本质上就是找Ω上满足Ag0(x)dxα的子集A,当样本落在A中则否定假设。首先容易看出满足Ag0(x)dx=αA总是更优的检验,而所有这样的A中必然有使得Ag1(x)dx达到最大值的Q。更具体地,用取代比较法不难证明,Q应当对某个常数C满足式(10)左,结合式(10)右便能确定C,该结论称为奈-皮基本引理

(10)Q={y|g1(y)g0(y)>C};Qg0(x)dx=α

  现在利用以上引理讨论一些分布的单边假设,所谓单边假设就是θθ0,θθ0形式的假设。为了从引理逐步扩展,先从H0,H1中分别任选θ=a,θ=b做为新的假设和对立假设。根据式(10)计算正态分布(方差已知)、二项分布、泊松分布、指数分布,不难发现得到的一致最优检验都有形式X¯CX¯C

  具体还能发现这个检验与b的选取无关,因此如果把对立假设扩展为整个H1,得到的检验仍然是一致最优的。另外还容易证明,这样的单边检验的功效函数在H0上是单调的,因此必须取a=θ0,才能在H0上都达到水平α。至此其实我们已经证明了,对于上面列举的几个分布,单边假设的一致最优检验是存在的,且具有形式X¯CX¯C

2. 非参数检验

  参数检验还是把注意力放在了参数本身,在有些场合下我们还需关注整个分布。具体说就是针对一个分布的假设H0,需要根据观察值去判定他是否成立,这样的问题被称为拟合优度检验。由于试验的随机性,检验本身必然是一种概率评估,并且与分布和样本数都有关系。先来看最简单的有限离散情况,假设概率分布是P(ai)=pi,试验n次中事件ai发生了ni次。最简单的误差度量方法就是看平方和S=i=1k(ninpi)2,如果假设成立,S是一个接近于0的随机变量(尤其n很大时),这非常不利于估计检验水平。有了前面的训练,你大概已经知道,我们需要找一个枢轴变量,并且它能包含S的良好形式。

  其实根据中心极限定理,(ninpi)2npi(1pi)的极限服从χ2分布,这就找到了枢轴变量该有的形式。可以证明式(11)成立,其中自由度k1与实际参数个数相同,Z被称为拟合优度χ2统计量。显然当假设不成立时,Z将非常大,故假设检验的方法是,当Zχk12(α)时接受假设。检验水平是最根本的度量,它能把随机造成的影响用最直观的数值表达出来,从而避免了直觉带来的错觉。样本数n较大时,看似符合分布的实验值都有可能被检验否定,反之样本数较小时,看似很不符合假设的实验值也可能被肯定,这便是数学的一大功效。

(11)Z=i=1k(ninpi)2npiχk12

  现实中还有一种关于分布的假设,只需要分布满足一定条件即可,也就是说假设的是一组分布族,表达出来的分布会含有r个参数。对于这样的检验问题,不妨先通过最大似然法求得一个具体分布,然后在此分布上计算拟合优度。可以证明,这时的χ2统计量近似服从χkr12,其中点估计又损耗掉r个自由度。

  关于分布族的检验中有一类常见问题,就是判断两个随机变量X,Y是否独立,在离散情况就是验证P(XY)=P(X)P(Y)。试验中统计事件xiyj发生的次数nij,它们组成的矩阵一般称为列联表。设X,Y分别有r,s个事件,则显然其概率p1,,pr,q1,,qs是假设分布的参数,其有效个数是r+s2。联合事件xiyi的个数是rs,故χ2统计量的自由度应该是(r1)(s1)

  以下记ni=j=1snij,nj=i=1rnij,通过最大似然法不难求得p^i=nin,q^j=njn,最后求得拟合优度的统计量Z(式(12))。

(12)Z=i=1rj=1s(nnijninj)2nninjχ(r1)(s1)2

  最后对于无穷离散分布和连续分布,可以通过值的合并得到有限个值域。比如无穷离散分布可以将大于某一定值的所有事件合并,连续分布则是把随机变量划分成有限个区间。为了保证精度,每个区间的样本数不能太小,故区间应根据样本的大致分布和数量来划分,在区间数尽量大的基础上,还要保证每个区间的样本数足够大。对于有r个参数的分布族,若样本分成了k个区间,拟合优度统计量同样近似服从χkr12。最后还要提示,最大似然法对公式(12)是必须的,但在难于计算的场合,用一般的点估计差距不会很大。

posted on   卞爱华  阅读(1831)  评论(0编辑  收藏  举报

编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架

导航

点击右上角即可分享
微信分享提示