假设检验的通俗理解与原理推导

假设检验是统计推断的又一类重要问题，在前面的文章中我们介绍了区间估计的内容，我们在区间估计中的结论都是在总体分布已知的情况下得到的，例如规定总体服从正态分布等，但在实际情况可能连分布都不知道。因此有的时候会提出一个假设，然后我们会抽样并采用统计学的方法去判断这个假设是否正确

考虑如下这种情形：
你去楼下的馒头店买馒头，老板说：我家的馒头很好吃，每天可以卖出100个，赶紧买一个尝尝吧！这时候你想，他每天真的可以卖这么多吗？为了判断馒头是否真的这么好吃，很简单的一个方法就是统计几天或者几十天卖出的馒头数量，如果卖出的数量都是十几个，那么我们一计算均值和100个相差很大，那么很自然的我们认为老板在撒谎，这家店每天卖不到100个馒头。

但是如果统计出来每天卖出的数量都是90多个，那么我们还能认为老板在撒谎吗？因每天卖出的馒头数是有波动的，会不会我们抽样的这些天里正好卖的少了一点呢？这时候就可以划分一个范围：如果误差比较小，可以设置在5个以内，比如统计结果平均每天卖出在95到105个之间，我们就可以认为这有可能是误差引起的，老板说的话是真的。同时我们也可以将误差区间设置为10个，20个等等，但是具体将区间设置为多少才合理呢？同时在这个区间内判断错误的概率有多少？这些数据需要一个量化的方法，告诉我们根据抽样出的馒头数量有多大的概率能判断老板的话可信或者不可信。这里我们就可以想到之前说到的区间估计原理https://blog.csdn.net/qq_42692386/article/details/142203585

想法有了之后，接下来我们用更严谨的数学语言和思路来解决这个问题。在这里会有一些经常用到的假设检验相关的定义和专有名词，请大家熟悉并理解。

馒头店问题的解决

原假设与备择假设

考虑我们之前说的买馒头的例子，对于老板的话我们知道只有真假两种可能，所以可以首先提出两个假设。
第一种假设我们称为原假设（也称为零假设，记为 $H_0$ ），假设馒头店每天卖出的馒头数为100个，也就是老板说的是真的，那么用数学语言表述就是：总体均值为100，用数学符号表示为
$H_0:\mu=\mu_0=100$
对应的就是老板说的是假的，也就是馒头店每天卖出的馒头数不等于100个，这种原假设的对立情况称为备择假设（记为 $H_1$ ），可表述为：
$H_1:\mu \neq \mu_0$
可以看到原假设和备选假设相互对应，两者中有且仅有一个成立，如果有充分的理由认为原假设是错的话就采用备择假设，如果没有办法证明原假设是错的话就采用原假设。

这里有一个很容易忽略但是实际应用中经常会出现的问题：为什么原假设设置为每天卖出的馒头数为100个？也可以把原假设设置为每天卖出的馒头数不等于100个呀？大家可以抱着这个疑问看下去，在后面理解了假设检验的原理后我们会额外解释一下这个问题。

检验统计量

对于每天卖出的馒头数这一个问题，我们研究的对象是总体均值 $\mu$ ,我们知道样本均值 $\bar X$ 是 $\mu$ 的无偏估计，抽取的样本均值一定程度上可以反映 $\mu$ 的大小，所以如果我们的假设 $H_0$ 成立，也就是馒头店每天卖出的馒头数为100个，那么我们抽取的一个样本观测值 $\bar x$ 和100应该相差不远，即偏差 $|\bar x-\mu_0|$ 不应当很大。假设现在我们现在知道总体方差 $\sigma^2$ （在不知道总体方差的情况下有另外的方法，在后续会介绍）并抽样取得了样本数量 $n$ ，考虑到之前说过的正态总体的样本均值与样本方差的分布里的这一个定理
$\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1)$
我们就知道可以使用这个统计量来计算估计 $|\bar x-\mu_0|$ ，在方差 $\sigma$ 和样本量 $n$ 固定的情况下分母保持不变，这个统计量的大小就代表了误差 $|\bar x-\mu_0|$ 的大小。给定一个值 $k$ ，如果 $\frac{\bar X-\mu_0}{\sigma/\sqrt{n}} \le k$ 就说明误差 $|\bar x-\mu_0|$ 较小，接受假设 $H_0$ ，否则就拒绝它，接受假设 $H_1$

对原假设和备择假设做出决策的某个样本统计量，称为检验统计量，构造检验统计量通俗点说就是：针对不同的问题，用不同的计算方法和公式去做决策。

接下来的问题就是如何确定 $k$ 的值呢？

显著性水平与第一二类错误

之前我们说过假设检验是通过一个样本计算相关概率来判断提出的假设是否正确，因此我们是有可能会判断出错：当馒头店实际每天卖出了100个馒头时，但判断老板撒谎，也就是“冤枉好人”。同时也有可能是馒头店每天不能卖出了100个馒头，但是我们认为老板说的是真话，这种就是所谓的“放过坏人”。这对应统计学中两种错误：

第一类错误：当 $H_0$ 为真时，我们拒绝了 $H_0$ ，发生的概率为 $α$
第二类错误：当 $H_0$ 为假时，我们却接受了 $H_0$ ，发生的概率为 $β$

而显著性水平就是指一类错误的概率，通常显著性水平用 $\alpha$ 表示。也就是
$P(H_0为真时，我们拒绝了H_0)=P_{\mu_0}\left\{\left|\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}\right|\ge k \right\}= \alpha$
其中 $P_{\mu_0}\{ \bullet \}$ 表示参数 $\mu$ 取 $\mu_0$ ，也这里就是原假设 $H_0$ 为真时事件 $\{ \bullet \}$ 的概率，

很明显为了保证我们的判断与实际一致 $\alpha$ 应该取的很小,在统计学中，一般统计学中 $\alpha$ 可以取0.05或者0.01,它表示犯一类错误的概率为5%和1%。
根据之前得分析，原假设 $H_0$ 为真时 $Z=\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1)$ ，我们根据正态分布的概率密度图像可以推出 $k=z_{\alpha/2}$ (注意这是一个绝对值函数，所以是要取 $\alpha/2$ 分位点)

这样我们就可以根据设置的显著性水平得出了检验统计量 $Z=\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}$ 的临界值，当 $|\bar x-\mu_0|$ 差距过大时我们一般称取到使 $H_0$ 被拒绝的值的值域为拒绝域。如果检验统计量落在拒绝域中，即
$|z|=\left|\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}\right|\ge k=z_{\alpha/2}$ 则拒绝 $H_0$

在上面的流程中我们只控制了第Ⅰ类错误的发生概率，但是在样本量固定的情况下我们在人工控制第Ⅰ类错误的发生概率的时候，就已经间接的提高了第Ⅱ类错误的发生概率。例如要减少馒头店实际每天卖出了100个馒头时，但判断老板撒谎这种第一类错误，一个办法就是扩大误差范围，以如果把误差从5个增加到10个，那么很明显犯第一类错误的概率降低，但是相应的扩大误差范围会让我们犯第二类错误的概率增加。我们把这种只考虑第Ⅰ类错误，不考虑第Ⅱ类错误的情况叫做显著性检验。

当然在实际应用中我们可以通过提高样本量减少犯两类错误的概率，也可以把判断错误会产生比较严重后果的假设放在原假设中，这样可以通过控制显著性水平控制错误的概率。

原假设与备择假设的选择

这个时候我们再回头看一开始原假设与备择假设留下的问题：如何选择原假设与备择假设。其实从假设检验的流程来看假设检验的原理是认为小概率事件不会发生，对应的就是将显著性水平 $\alpha$ 设置的比较小，并计算得到对应概率下的合理区间。如果依旧落在了拒绝域中，就说明如果原假设正确，就发生了小概率事件（也就是所谓的反证法），那么就有充分的理由拒绝原假设。注意我们这里的表述：落在拒绝域中，我们有充分的理由拒绝原假设从而接受备择假设，而如果没有落在拒绝域中，则我们没有充分的理由拒绝原假设，即一旦拒绝了原假设，则结论就是充分的、确定的；而无法拒绝原假设只是表示没有充分的理由拒绝原假设，或者说是“勉强接受”原假设。

所以一般情况下我们把想要拒绝的假设放在原假设，这个是为什么呢？因为原假设被拒绝如果出错的话，只能犯第I类错误，而犯第I类错误的概率已经被规定的显著性水平 $\alpha$ 所控制，这样当原假设被拒绝时,能够以较大的把握肯定备择假设的成立。

如果无法判断要拒绝的假设，则考虑原假设 $H_0$ 英文是Null Hypothesis，可以理解为是无偏、无区别，所以等于、不显著高于等等就是原假设

单边假设检验与双边假设检验

在上面讲到的例子中要验证的问题是样本均值与总体均值的差距是否很大的问题，我们强调过这里涉及到绝对值，所以对应的拒绝域分布在图像两侧，这种一般称为双边假设检验。但是在其他的问题中有的时候只关心一个方面，比如A馒头店每天卖的馒头是不是比B馒头店多等等，这个时候我们只关心A的总体均值大于B的总体均值，所以只会有一侧的拒绝域，称为单边假设检验。这个概念与区间估计中的概念类似，具体的例子将在之后有更加详细的解释。

一般假设检验的步骤如下：
提出原假设与备择假设
确定显著性水平与样本容量
构造检验统计量
根据显著性水平确定拒绝域临界值
计算检验统计量与临界值进行比较

正态总体下的假设检验问题

在之前的内容中通过一个例子引入了假设检验的原理与步骤，其中说到针对不同的问题需要构造不同的统计量，所以接下来就详细的说一下各种问题下假设检验的相关原理。这个过程与之前参数估计推导公式和原理基本一致，所以这里只简单介绍对应重要的过程与公式结果，如果你不知道详细的推导过程和原理建议看一下之前讲到的区间估计https://blog.csdn.net/qq_42692386/article/details/142203585以及区间估计和假设检验的基础内容正态总体下的统计量及其分布https://blog.csdn.net/qq_42692386/article/details/142366733

正态总体 $N(\mu,\sigma^2)$ 下均值的假设检验

单个总体的关于均值 $\mu$ 的检验

这一类问题就是我们在之前的例子中说到的通过抽样验证总体均值是否等于某一个值，例如馒头店每天卖的馒头是不是100个，工厂生产的次品每天是不是50个等等。
这一类问题的假设一般为 $H_0:\mu=\mu_0,H_1:\mu \ne \mu_0$ ，并且设置显著性水平为 $\alpha$ ，其中根据条件不同选择对应的检验统计量：

$\sigma^2$ 已知，关于 $\mu$ 的检验（Z检验）
详细推导过程即为之前所说的案例内容，根据定理 $Z=\frac{\bar X-\mu_0}{\sigma/\sqrt{n}} \sim N(0,1)$ ，容易推导出拒绝域满足的条件为 $\frac{|\bar x-\mu_0|}{\sigma/\sqrt{n}}\ge z_{\alpha/2}$ 。使用这一个统计量的假设检验称为Z检验
$\sigma^2$ 未知，关于 $\mu$ 的检验（t检验）
如果总体方差 $\sigma^2$ 未知，就不能使用之前的Z检验统计量。由正态总体下的统计量分布公式 $t=\frac{\bar X-\mu}{S/\sqrt{n}} \sim t(n-1)$ ，按照同样的逻辑容易推导出拒绝域满足的条件为 $\left|\frac{\bar x-\mu_0}{S/\sqrt{n}}\right| \ge t_{\alpha/2}(n-1)$ ，这种方法称为t检验。
在实际应用中一般是不知道总体方差的，所以一般都是使用t检验来处理正态总体均值检验的问题。

两个正态总体均值差的检验（t检验）

例如检验两个工厂之间的产能是否有明显差异，不同版本的网页带来的购买量是否有差异都属于这一类问题。
这种问题的假设为 $H_0:\mu_1-\mu_2=\delta,H_1:\mu_1-\mu_2\ne \delta$ ,设置显著性水平为 $\alpha$ ,

$\sigma^2$ 未知但是两个总体的方差相等
根据定理
$\frac{(\bar X-\bar Y)-\delta}{S_w\sqrt{\frac1{n_1}+\frac1{n_2}}}\sim t(n_1+n_2-2) ~ \mathrm{，其中} ~ S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2},S_w= \sqrt {S_w^2}$

按照一样的逻辑可以推导出拒绝域满足条件 $\left|\frac{(\bar x-\bar y)-\delta}{s_w\sqrt{\frac1{n_1}+\frac1{n_2}}}\right| \ge t_{\alpha/2}(n_1+n_2-2)$
在实际应用中经常用到的是 $\delta=0$ 的情况，也就是检验两个正态总体均值是否相等。

两个正态总体方差均已知
在知道方差的情况下由正态分布的可加性质可以将两个正态总体X,Y转化为单个总体X-Y的分布，使用Z检验即可。检验统计量
$\frac{(\bar X-\bar Y)-\delta}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$
对应拒绝域满足的条件为 $\left|\frac{(\bar X-\bar Y)-\delta}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \right| \ge z_{\alpha/2}$

基于成对数据的检验

为了比较两种产品，两种仪器，两种方法等的差异，我们经常需要做对照实验。为了比较某一个自变量变化后对于总体属性的影响，往往在控制其余条件相同的情况下去做对比试验，得到一批成对的观察值。在这种情况下由于每次都会改变自变量，条件不同的情况下同一个仪器（或者产品，方法）得到的数据无法看成同分布的随机变量，而在同一条件下，两个仪器（或者产品，方法）得到的一对数据可以看作是仅因为仪器（或者产品，方法）的差异引起的，所以就可以使用之前的方法做假设检验

用数学语言表述为：设有n对相互独立的观察结果 $(X_1,Y_1),(X_2,Y_2),\cdots,(X_n,Y_n)$ ，令 $D_i=X_i-Y_i$ ，那么 $D_1,D_2,\cdots,D_n$ 相互独立且可以认为满足同一分布（因为由同一个因素引起）
设 $D_i \sim N(\mu_D,\sigma_D^2)$ ，且两个参数都未知,要估计的是均值差,所以检验的假设使用的是t检验法，对应假设有三种：
$\begin{cases} H_0:\mu_D=0,H_1:\mu_D \ne 0 \\ H_0:\mu_D \le 0,H_1:\mu_D>0\\ H_0:\mu_D \ge 0,H_1:\mu_D<0 \end{cases}$
对应的t检验统计量：
$\begin{cases} |t|=\left|\dfrac{\bar d}{s_D/\sqrt{n}}\right| \ge t_{\alpha/2}(n-1) \\ t=\dfrac{\bar d}{s_D/\sqrt{n}} \ge t_\alpha(n-1)\\ t=\dfrac{\bar d}{s_D/\sqrt{n}} \le -t_\alpha(n-1) \end{cases}$
第一个是双边假设检验，第二个是右边检验，第三个是左边检验，根据需要检验的问题使用即可

正态总体方差的假设检验

单个总体的情况( $\chi^2$ 检验)

检验一个正态分布的方差是否为某个值的情形，例如馒头店每天卖出的馒头数方差是否等于10，电池的寿命方差是否等于5000小时等等。
这种情况下假设为： $H_0:\sigma^2=\sigma_0^2,H_1:\sigma^2 \ne \sigma_0^2$ ，并且设置显著性水平为 $\alpha$ 。

$\mu$ 已知，关于 $\sigma^2$ 的检验
考虑之前说到的结论，检验统计量为 $\dfrac{1}{\sigma^2} \sum\limits^{n}_{i=1}\left(X_i-\mu \right)^2 \sim \chi^2(n)$ ，根据之前同样的流程可以解出拒绝域为 $\dfrac{\sum\limits^{n}_{i=1}\left(X_i-\mu \right)^2}{\sigma_0^2} \le \chi^2_{1-\alpha/2}(n) \quad \cup \quad \dfrac{\sum\limits^{n}_{i=1}\left(X_i-\mu \right)^2}{\sigma_0^2} \ge \chi^2_{\alpha/2}(n)$
$\mu$ 未知，关于 $\sigma^2$ 的检验（ $\chi^2$ 检验）
由于 $S^2$ 是 $\sigma^2$ 的无偏估计，所以观察值 $s^2$ 和 ${\sigma_0}^2$ 的比值应当在1附近，故考虑检验统计量为： $\dfrac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$ ,检验统计量的上限和下限设置为 $k_1,k_2$ ,则有：
$P_{{\sigma_0}^2}\left\{\dfrac{(n-1)S^2}{\sigma_0^2} \le k_1 \right\}=\frac{\alpha}{2},P_{{\sigma_0}^2}\left\{\dfrac{(n-1)S^2}{\sigma_0^2} \ge k_2 \right\}=\frac{\alpha}{2}$
解得拒绝域为：
$\dfrac{(n-1)S^2}{\sigma_0^2} \le \chi^2_{1-\alpha/2}(n-1) \quad \cup \quad \dfrac{(n-1)S^2}{\sigma_0^2} \ge \chi^2_{\alpha/2}(n-1)$
方法一般称为 $\chi^2$ 检验法

如果为单边检验，按照相同的原理可以得到对应的假设和拒绝域，总结如下
$\begin{cases} H_0:\sigma^2=\sigma_0^2,H_1:\sigma^2 \ne \sigma_0^2 \\ H_0:\sigma^2\ge \sigma_0^2,H_1:\sigma^2 < \sigma_0^2 \\ H_0:\sigma^2\le \sigma_0^2,H_1:\sigma^2 > \sigma_0^2 \\ \end{cases}$
拒绝域：
$\begin{cases} \dfrac{(n-1)S^2}{\sigma_0^2} \le \chi^2_{1-\alpha/2}(n-1) \quad \cup \quad \dfrac{(n-1)S^2}{\sigma_0^2} \ge \chi^2_{\alpha/2}(n-1) \\ \dfrac{(n-1)S^2}{\sigma_0^2} \le \chi^2_{1-\alpha}(n-1) \\ \dfrac{(n-1)S^2}{\sigma_0^2} \ge \chi^2_{\alpha}(n-1) \\ \end{cases}$

两个总体的情况( $F$ 检验)

有的时候要比较两个总体的方差的大小，例如两个机器产出的产品重量波动哪个比较大等。
依然从双边假设检验开始。我们要检验的假设为 $H_0:\sigma_1^2=\sigma^2_2,H_1:\sigma^2_1 \ne \sigma_2^2$ ，我们取 $\sigma_1^2/\sigma_2^2$ 研究，那么零假设相当于比值为1，所以如果为零假设为真，那么这个比值就不能与1差得太大，这样就和之前讨论单个总体的思路完全相同。所以按照一样的步骤和逻辑，结合定理 $\frac{S_1^2/S_2^2}{\sigma^2_1/\sigma^2_2} \sim F(n_1-1,n_2-1)$ ，可以得到我们的拒绝域
$F=\frac{S_1^2}{S_2^2} \ge F_{\alpha/2}(n_1-1,n_2-1) \quad,\quad F\le F_{1-\alpha/2}(n_1-1,n_2-1)$

当然根据同样的逻辑可以推出其单边检验的拒绝域。

在最后我们给出所有情况下的检验统计量和单边/双边拒绝域的情况，只要理解了推导方法并记住对应的检验统计量结论就可以自己推导了

参考文章，https://zhuanlan.zhihu.com/p/29154307

posted @ 2024-11-15 15:45 Smilecoc 阅读(275) 评论(0) 收藏举报来源

刷新页面返回顶部

smilecoc

假设检验的通俗理解与原理推导

馒头店问题的解决

原假设与备择假设

检验统计量

显著性水平与第一二类错误

原假设与备择假设的选择

单边假设检验与双边假设检验

正态总体下的假设检验问题

正态总体 $N(\mu,\sigma^2)$ 下均值的假设检验

单个总体的关于均值 $\mu$ 的检验

两个正态总体均值差的检验（t检验）

基于成对数据的检验

正态总体方差的假设检验

单个总体的情况( $\chi^2$ 检验)

两个总体的情况( $F$ 检验)

公告

smilecoc

假设检验的通俗理解与原理推导

馒头店问题的解决

原假设与备择假设

检验统计量

显著性水平与第一二类错误

原假设与备择假设的选择

单边假设检验与双边假设检验

正态总体下的假设检验问题

正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)下均值的假设检验

单个总体的关于均值 μ \mu μ的检验

两个正态总体均值差的检验（t检验）

基于成对数据的检验

正态总体方差的假设检验

单个总体的情况( χ 2 \chi^2 χ2检验)

两个总体的情况( F F F检验)

公告

正态总体 $N(\mu,\sigma^2)$ 下均值的假设检验

单个总体的关于均值 $\mu$ 的检验

单个总体的情况( $\chi^2$ 检验)

两个总体的情况( $F$ 检验)