【数理统计基础】 04 - 假设检验

　　参数估计（尤其点估计）是数理统计中的基本问题，在此基础上还需要有进一步的应用，其中比较常见就是问题就是所谓“假设检验”。具体来说，通过样本可以知道原分布的一些信息，之后可以利用这些信息进行一些决策，而其中一类决策依赖于对分布（参数）的硬性“假设”。假设检验问题非常普遍，因此它和参数估计并称为数理统计的两大问题。但这里我还是想强调，假设检验问题本身就是对参数估计的应用，在强调它们的差异的同时，也要注意两者之间的联系。

1. 参数检验

1.1 贝叶斯方法

　　关于参数的假设一般是关于参数的（不）等式\(H_0\)（有时也把符合条件的全体参数记作\(H_0\)），它被称为统计假设。相应地，其逆条件被记作\(H_1\)，它被称为对立假设，这时的原条件也可称为原假设。为了判断假设是否成立，需要从样本（统计量）中获取信息。但要注意，概率模型中能得到的仅有概率信息，在决策模型中还必须有个奖惩函数，奖惩和概率相结合才能作出符合实际的决策（这是我捏造的词，高等数理统计中会有完整的理论体系，这里不讨论）。

　　初等教材上不会强调奖惩信息在模型的中的地位，这会导致决策的“唯概率论”错误。我们多次强调，概率统计只负责其自身逻辑，实际问题中并不仅是统计模型，还需要看清问题的全部。奖惩信息的制定与具体问题有关，可能另有理论支持，也可能只需经验值或粗略设定，但这已经和概率统计无关。故下面的论述中，我只是会不断提醒，但不能深入讨论如何制定奖惩信息。

　　我们要面对的假设一般是\(\theta=\theta_0,\theta>\theta_0,\theta\in[\theta_1,\theta_2]\)之类的（不）等式，为了验证这个假设是否成立，需要制定一个只与样本有关的判定准则\(\varPsi(X_1,\cdots,X_n)\)。它一般也是一个（不）等式，理论上这个准则中应当含有奖惩信息，而这个判定过程被称为假设检验。

　　这里先用贝叶斯方法来说明所有概念。前面已经知道，贝叶斯方法给出参数的全部已知信息，它以统一而简洁的形式给出了参数的分布。在得到样本信息后，通过固定的计算便得到了参数\(\theta\)的分布\(p(x)\)。为了检验假设\(H_0\)，直觉上选择的准则\(\varPsi\)应当是：\(p(x)\)在\(H_0\)上的积分大于\(1/2\) 。对于\(\theta=\theta_0\)这样的假设，则应当改写成适当的区间\(\theta\in[\theta_0-\varepsilon,\theta_0+\varepsilon]\)，这样才更符合实际。

　　但这种不带奖惩信息的判断准则\(\varPsi\)在实际中很难使用，还需要根据情况选定一个奖惩函数\(h(\theta)\)，以式（1）作为假设成立的判断准则。奖惩函数的选择一定是根据现实需求的，如果更希望满足\(H_0\)的参数不被淘汰，则\(p(\theta)\)在\(H_0\)上选取偏大的奖励；如果更希望满足\(H_1\)的参数不被选中，则\(p(\theta)\)在\(H_1\)上选取偏大的惩罚（负值）。而对\(\theta=\theta_0\)这样的假设，只需在\(\theta_0\)周围设定适当的奖励即可。回过头去看，直觉上的\(1/2\)准则其实就是取式（2）的奖惩函数。

\[\varPsi:\;\int h(\theta)p(\theta)\,\text{d}\theta>0\tag{1}\]

\[h(\theta)=\left\{\begin{matrix}1,&\theta\in H_0\\-1,&\theta\in H_1\end{matrix}\right.\tag{2}\]

　　最后来分析一下正态分布\(N(\mu,\sigma)\)（\(\mu,\sigma\)均未知）中\(\mu\)的后验分布，先验分布取广义密度函数\(f(\mu,\sigma)=\sigma^{-1}\)（均值取均分、方差取\(\sigma^{-1}\)）。利用贝叶斯法计算\(\mu\)的后验分布（计算过程中只需关注变量部分，证明细节请参考教材），则可以得到式（3）的结论，它和点估计中的结论殊路同归，但本质意义不同。

\[\dfrac{\sqrt{n}(\mu-\bar{X})}{S}\;\sim\;t_{n-1}\tag{3}\]

1.2 功效函数

　　鉴于贝叶斯方法的故有缺陷（先验概率难以确定），我们还是要从直观的角度重新分析一遍假设检验的问题，上面提到的大部分概念和思想仍然有用。现在不能再把参数\(\theta\)当做一个随机变量，但仍然可以在每一个\(\theta\)下来评估检验\(\varPsi\)。具体来说，对于事先制定的检验\(\varPsi\)，可以计算出在不同\(\theta\)下检验为否定的概率\(\beta_{\varPsi}(\theta)\)，它被称为功效函数。如果检验\(\varPsi\)使得功效函数满足式（4），它便称为水平\(\alpha\)的检验。

\[\beta_{\varPsi}(\theta)\geqslant\alpha,\;\;(\theta\in H_0)\tag{4}\]

　　对于分析问题而言，功效函数的作用和后验概率是一样的，不同的是，它不依赖于先验概率。有两点需要说明，一个是功效函数为什么采用的是否定的概率？我个人觉得还是肯定的概率更方便使用，也许是为了能直接查表吧。另一个是教材中同样没有引入奖惩函数，而是默认为一些常用场景（检验水平的概念就是只强调\(H_0\)的接收率），我觉得会造成学习者的困惑。带着奖惩函数的概念，教材上一些策略的描述也许会更加清晰。

　　下面从最简单的场景讨论起，以此体验以上概念的含义，以及检验的具体方法。首先对正态分布\(N(\mu,\sigma^2)\)，假定\(\sigma\)已知，要想对\(\mu\geqslant\mu_0\)进行检验。最容易想到的检验方法自然是当\(\bar{X}\geqslant C\)时接受假设，其中常数\(C\)待定。先来计算检验的功效函数，前面已知\(\bar{X}\)满足分布\(N(\mu,\sigma^2/n)\)，功效函数既是\(\bar{X}<C\)的概率。

　　在这里我们再次碰到不等式的概率问题，自然地联想到上篇的枢轴变量法。不难得到功效函数为\(\varPhi(\sqrt{n}(C-\mu)/\sigma)\)，可以画出它的图像大致如下。为了得到检验水平\(\alpha\)，只需\(C\leqslant\mu_0-\sigma u(\alpha)/\sqrt{n}\)，最终得到式（5）的检验。但从图中看出，在保证检验水平\(\alpha\)的条件下，要使得\(H_1\)的功效函数（一致地）足够大是不可能的，尤其在临界点\(\mu_0\)处。所以原假设和对立假设都达到一定水平的检验往往是不存在的，这就必须根据实际问题进行取舍，粗略的奖惩函数是必须的。

\[\varPsi:\;\dfrac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma}\geqslant -u(\alpha)\tag{5}\]

　　以上我们给出了寻找检验方法的步骤：先根据假设的特点确定检验的大致形式（带参数），然后算出功效函数，最后确定参数以满足检验水平。有时这个过程中的计算会比较繁琐，但式（5）可以给我们一些启发，它在\(\mu=\mu_0\)时取等号且有很直观的意义。先用枢轴变量直接在临界点找到满足精度的等式，然后根据检验的大致形式把等式改为不等式，最后再回头验证功效函数的局部单调性。当\(\sigma\)未知时，按照这个思路只需把式（5）中的\(u(\alpha)\)换成\(t_n(\alpha)\)即可，但还要注意证明功效函数的单调性。

　　对于假设\(\mu\leqslant\mu_0\)和\(\mu=\mu_0\)，也有类似的结论。关于正态分布，比较常见的假设还有两个分布均值的比较\(\mu_1-\mu_2\geqslant 0\)，以及不太常用的方差假设，包括单分布的方差假设\(\sigma^2\geqslant \sigma_0^2\)，和两个分布方差比的假设\(\sigma_1^2/\sigma_2^2\geqslant c\)。关于它们的枢轴变量都已经在上一篇介绍过，请自行写出检验方法和功效函数。

1.3 特殊分布检验

　　现在再来聊聊正态分布之外的常见分布，它们各自有自己的形式特点，不一定能用枢轴变量法简单求解。对于实在难办的问题，如果样本足够大，可以借助中心极限定理，这也是为什么我们要弄清楚正态分布的假设检验。

　　对于离散分布，更是不能使用枢轴变量，边界值只能取近似的整数。二项分布的计算比较麻烦，最好是借助极限定理近似。对于泊松分布，由于可加性，只需进行一次采样（时长大一点会较好）。计算临界值值会比较麻烦，但利用其形式特点，容易有式（6）成立（\(K_n(x)\)是\(\chi_n^2\)的分布函数），这样通过查表即可确定\(k\)的值。

\[\sum\limits_{i=0}^k\dfrac{\lambda^ie^{-\lambda}}{i!}=\int_{\lambda}^{\infty}\dfrac{t^ke^{-t}}{k!}\,\text{d}t=1-K_{2k+2}(2\lambda)\tag{6}\]

　　其它连续分布中，指数分布恰巧有枢轴变量\(2\lambda X\sim\chi^2\)，因此参数的假设可以利用\(2n\lambda\bar{X}\sim\chi_{2n}^2\)来检验。但注意到指数分布本质是一个时间分布，它有无限大的可能值，这对实际采样造成了无法控制的困难。现实中只能限定试验时间或限定事件发生次数，其中前者比后者更可控，但精度上也会损失更多。这样的方法称为截尾法，可以假定\(n\)个独立试验同时进行，具体分为定时截尾法和定量截尾法。

　　先来看简单一点的定量截尾法，就是当第\(r\)个事件发生时停止试验，检验时必须充分利用已有的试验数据，因此对已发生的事件都要记录下时间。先来看一个简单的结论，记\(Y\)为\(X_i\)的最小值，它是一个随机变量。可以算得\(Y\)的分布函数是\(1-e^{-\lambda nx}\)，从而有式（7）成立。

\[Y=\min\{X_i\}\;\Rightarrow\;2n\lambda Y\sim\chi_2^2\tag{7}\]

　　如果把每个试验的耗时排序成下图，\(nY\)便是图中的阴影部分之和，由于指数分布的无记忆性，接下来的\(n-1\)个事件可以进行同样的讨论。观察在时间\(Z\)停止，讨论得到了\(r\)个独立的\(\chi_2^2\)分布。设虚线\(Z\)以下的时间和为\(T\)，结合式（7）有式（8）成立，这就是我们要的枢轴变量！

\[T=X_1+\cdots+X_r+(n-r)X_r\;\Rightarrow\;2\lambda T\sim\chi_{2r}^2\tag{8}\]

　　定时截尾法更便于操作，但却没有式（8）一样的漂亮结论，但可以证明近似地有\(2\lambda T\sim\chi_{2r+1}^2\)，其中\(r\)为规定时间内发生的事件数。最后提一下，两个截尾法中的\(r\)越接近\(n\)，检验的精度越高，因此在设计实验时，需要根据经验或观察设定合理的阈值。另外还请注意，结论（7）（8）也可用于参数估计。

1.4 检验标准

　　大部分时候，检验方法只关心\(H_0\)区域的检验级别，但当要比较不同检验优劣的时候，\(H_1\)区域的否定率便称成为重要的参考。如果在所有\(\alpha\)级别的检验中，存在检验\(\varPhi_0\)对比任何检验\(\varPhi\)都满足式（9），\(\varPhi_0\)便称为一致最优检验。和MVU估计一样，大部分场合下一致最优检验并不存在，即使存在也很难找到。

\[\beta_{\varPhi_0}(\theta)\geqslant\beta_{\varPhi}(\theta),\;\;(\theta\in H_1)\tag{9}\]

　　但对于那些常见的假设问题，却恰巧可以找到一直最优检验，下面来讨论这个问题（仅讨论连续分布，离散类似）。先来看最简单的场景，我们面临的问题是要在两个分布\(F_0,F_1\)中二选一（也就是说\(\theta\)仅有两个值供选择），检验满足一定条件则判定为服从分布\(F_0\)（这是原假设\(H_0\)），否则服从分布\(F_1\)（对立假设\(H_1\)）。以下记\(n\)次独立试验的联合样本空间为\(\Omega\)，两个分布生成的联合密度函数分别是\(g_0(x),g_1(x)\)。

　　水平为\(\alpha\)的检验，本质上就是找\(\Omega\)上满足\(\int_A g_0(x)\,\text{d}x\leqslant\alpha\)的子集\(A\)，当样本落在\(A\)中则否定假设。首先容易看出满足\(\int_A g_0(x)\,\text{d}x=\alpha\)的\(A\)总是更优的检验，而所有这样的\(A\)中必然有使得\(\int_A g_1(x)\,\text{d}x\)达到最大值的\(Q\)。更具体地，用取代比较法不难证明，\(Q\)应当对某个常数\(C\)满足式（10）左，结合式（10）右便能确定\(C\)，该结论称为奈-皮基本引理。

\[Q=\{\,y\,|\dfrac{g_1(y)}{g_0(y)}>C\,\};\;\;\int_Q g_0(x)\,\text{d}x=\alpha\tag{10}\]

　　现在利用以上引理讨论一些分布的单边假设，所谓单边假设就是\(\theta\leqslant\theta_0,\theta\geqslant\theta_0\)形式的假设。为了从引理逐步扩展，先从\(H_0,H_1\)中分别任选\(\theta=a,\theta=b\)做为新的假设和对立假设。根据式（10）计算正态分布（方差已知）、二项分布、泊松分布、指数分布，不难发现得到的一致最优检验都有形式\(\bar{X}\leqslant C\)或\(\bar{X}\geqslant C\)。

　　具体还能发现这个检验与\(b\)的选取无关，因此如果把对立假设扩展为整个\(H_1\)，得到的检验仍然是一致最优的。另外还容易证明，这样的单边检验的功效函数在\(H_0\)上是单调的，因此必须取\(a=\theta_0\)，才能在\(H_0\)上都达到水平\(\alpha\)。至此其实我们已经证明了，对于上面列举的几个分布，单边假设的一致最优检验是存在的，且具有形式\(\bar{X}\leqslant C\)或\(\bar{X}\geqslant C\)。

2. 非参数检验

　　参数检验还是把注意力放在了参数本身，在有些场合下我们还需关注整个分布。具体说就是针对一个分布的假设\(H_0\)，需要根据观察值去判定他是否成立，这样的问题被称为拟合优度检验。由于试验的随机性，检验本身必然是一种概率评估，并且与分布和样本数都有关系。先来看最简单的有限离散情况，假设概率分布是\(P(a_i)=p_i\)，试验\(n\)次中事件\(a_i\)发生了\(n_i\)次。最简单的误差度量方法就是看平方和\(S=\sum\limits_{i=1}^k(\dfrac{n_i}{n}-p_i)^2\)，如果假设成立，\(S\)是一个接近于\(0\)的随机变量（尤其\(n\)很大时），这非常不利于估计检验水平。有了前面的训练，你大概已经知道，我们需要找一个枢轴变量，并且它能包含\(S\)的良好形式。

　　其实根据中心极限定理，\(\dfrac{(n_i-np_i)^2}{np_i(1-p_i)}\)的极限服从\(\chi^2\)分布，这就找到了枢轴变量该有的形式。可以证明式（11）成立，其中自由度\(k-1\)与实际参数个数相同，\(Z\)被称为拟合优度\(\chi^2\)统计量。显然当假设不成立时，\(Z\)将非常大，故假设检验的方法是，当\(Z\leqslant\chi_{k-1}^2(\alpha)\)时接受假设。检验水平是最根本的度量，它能把随机造成的影响用最直观的数值表达出来，从而避免了直觉带来的错觉。样本数\(n\)较大时，看似符合分布的实验值都有可能被检验否定，反之样本数较小时，看似很不符合假设的实验值也可能被肯定，这便是数学的一大功效。

\[Z=\sum\limits_{i=1}^k\dfrac{(n_i-np_i)^2}{np_i}\sim \chi_{k-1}^2\tag{11}\]

　　现实中还有一种关于分布的假设，只需要分布满足一定条件即可，也就是说假设的是一组分布族，表达出来的分布会含有\(r\)个参数。对于这样的检验问题，不妨先通过最大似然法求得一个具体分布，然后在此分布上计算拟合优度。可以证明，这时的\(\chi^2\)统计量近似服从\(\chi_{k-r-1}^2\)，其中点估计又损耗掉\(r\)个自由度。

　　关于分布族的检验中有一类常见问题，就是判断两个随机变量\(X,Y\)是否独立，在离散情况就是验证\(P(XY)=P(X)P(Y)\)。试验中统计事件\(x_iy_j\)发生的次数\(n_{ij}\)，它们组成的矩阵一般称为列联表。设\(X,Y\)分别有\(r,s\)个事件，则显然其概率\(p_1,\cdots,p_r,q_1,\cdots,q_s\)是假设分布的参数，其有效个数是\(r+s-2\)。联合事件\(x_iy_i\)的个数是\(rs\)，故\(\chi^2\)统计量的自由度应该是\((r-1)(s-1)\)。

　　以下记\(n_{i*}=\sum\limits_{j=1}^sn_{ij},\;n_{*j}=\sum\limits_{i=1}^rn_{ij}\)，通过最大似然法不难求得\(\hat{p}_i=\dfrac{n_{i*}}{n},\;\hat{q}_j=\dfrac{n_{*j}}{n}\)，最后求得拟合优度的统计量\(Z\)（式（12））。

\[Z=\sum\limits_{i=1}^r\sum\limits_{j=1}^s\dfrac{(nn_{ij}-n_{i*}n_{*j})^2}{nn_{i*}n_{*j}}\;\sim\;\chi_{(r-1)(s-1)}^2\tag{12}\]

　　最后对于无穷离散分布和连续分布，可以通过值的合并得到有限个值域。比如无穷离散分布可以将大于某一定值的所有事件合并，连续分布则是把随机变量划分成有限个区间。为了保证精度，每个区间的样本数不能太小，故区间应根据样本的大致分布和数量来划分，在区间数尽量大的基础上，还要保证每个区间的样本数足够大。对于有\(r\)个参数的分布族，若样本分成了\(k\)个区间，拟合优度统计量同样近似服从\(\chi_{k-r-1}^2\)。最后还要提示，最大似然法对公式（12）是必须的，但在难于计算的场合，用一般的点估计差距不会很大。

posted on 2017-05-22 18:02 卞爱华阅读(1783) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

万物皆数