假设检验 - 张叫兽的技术研究院 - 博客园

假设检验

什么是假设检验

什么是假设检验，简单的讲就是，首先我有一个某个领域的数据分布有一个预期，然后观测并获取到这个领域一组统计学的数据，那么这组数据到底是支持我的预期还是反对我的预期，为了回答这个问题就需要使用到假设检验。

假设检验的思路

那么检验的思路是什么呢？

1. 首先要假设我们观测到的统计数据是符合我们预期的数据分布的；

2. 然后我们要将数据分布的可能性进行二元划分，一元是大概率范围，一元是小概率范围，所谓小概率就是发生的概率非常小，如果观测到的这组数据是小概率范围内，那么我们其实就可以认为观测到的数据是不符合你的预期的，怎么那么巧获取到的数据就在几乎不可能的范围内？所以我有足够的理由推翻你的预期。

3. 然后就是从观测到的统计数据是可以提取为一个"现象值"，计算现象值在假设的数据分布的（累计）概率是多大，如果是正态分布的话，可以通过查表获得，如果是2项分布，可以统计计算获得。

注：那么多少算是小概率？业界一般情况下是以5%作为标准。对于低于5%的数据认为是小概率事件。当然可以根据你自己的业务诉求。

1. 某鼻鼾特效药宣称治愈率是90%，某医生跟踪调查，15个人中11人治愈，那么这个结果是否支持药厂的声明？

2. 某糖果包装厂采用机器包装糖果，装袋重量符合X~N(0.5, 0.015)的分布，某天抽样检测重量如下：0.479， 0.506， 0.518， 0.524， 0.498， 0.511， 0.520， 0.515， 0.512；请问今天机器是否正常？

假设检验过程

H0和H1的设定

OK，假设检验本质就是证明观测到数据（现象值），在统计学意义上到底是支持你的假设还是拒绝你的假设。那么基于这个思路，我们首先要有假设H0，即H0，还要有H1，即备择假设，也就是如果拒绝H0，那么我就拥抱H1，注意，敲黑板了，H0，和H1组成了所有的概率可能，就像下面这张图一样，累计概率之后为1（100%），所以，其实假设检验就是要检验的数据到底是处于哪个范围，如果是H0的区域，那没问题，支持原假设，如果是在H1的区域内，那么就拒绝原假设。

注：假设是业务语言来描述，下面提到的"检验统计量"，则是根据假设以及观测到的统计数据，给出的统计学意义上面的数据分布，比如对于鼻鼾药的案例中，假设是治愈率达到90%，那么检验统计量就是X~B(15, 0.9)

检验统计量指定

那么这个待检验数据（观测到的统计数据），是更确切的说其实是观测到的样本的数据分布，是全量数据集的一个子集（要明白数据分布的含义首先要明白统计学的本质意义，参加文尾内容）；在假设统计里面，就是会做一个预期的数据分布（根据H0做的数据分布），然后假设观测到的统计数据也是符合这个数据分布的（即符合H0）；这个假设的数据分布结合观测到的数据就是检验统计量，比如在鼻鼾药案例中，他的检验统计量（假设的数据分布）就是：

在糖果包装案例中，他的检验统计量就是：

[avg(x) - μ0]/δ*n^1/2（其中μ和δ都是历史的均值和方差）

现象值判断区间范围

有了这个检验统计量之后，我们需要计算"现象值"在检验统计量（的假设分布）中的概率是多少；因为我们观测到不仅仅是一组现象，是一定可以提取出来一个"现象值"的，比如在鼻鼾特效药的案例中，这个"现象值"就是治好的病人的数量11，然后我们计算一下P(x<=11)的概率多大，如果我们以5%作为大小概率的区分，那么如果P(X<=11)的值大于5%，就说明现象值是是在大概率范围内，反之则说明现象值是小概率事件，有理由拒绝，最后计算出来P(X<=11)的值是5.55%，Hoory，大于5%，那么支持原假设，即治愈率是90%在。

在糖果包装重量的案例中，我们计算出来现象值是2.2，查表得出概率是98.2% ，一看大概率区间范围是(2.5%,97.5%)，说明现象值并没有落在H0的大概率区间，而是落在H1的范围内，所以拒绝H0的假设。

什么是单尾/双尾检验

最后再来说一下单尾和双尾检验，所谓单尾和双尾是指拒绝域是在分布的两侧（高端低端）还是分布在一侧。

单尾分为左单尾还是右单尾，左单尾指区间[0, 5%]，右单尾指区间(95%, 100%]。至于是左单尾还是右单尾，如果H1（拒绝域）是小于号，则取左单尾，可以理解，左单尾包含了极小值0，拒绝域如果是大于号，则取右单尾，因为它包含了极大值100%

双尾则是应用在H1是≠的场景，区间是指[0,2.5%]以及[97.5%, 100%]两部分组成。为什么呢？因为不等于的话，意味着所有的小概率事件都要屏蔽。

附录：什么是统计学

这里附带说明一下，到底什么是统计学，统计学本质上就是在一个已知位置的（全量）数据集，分析出每个可能数据的概率，这些数据的概率就被称之为数据分布；数据（随机变量）分布分为两类，一类是离散的，就是研究的数据集是可以穷举的，我们使用表格形式就可以表示这种情况（如下所示），最典型的就是硬币正反面的概率：

另外一种，随机变量本身连续的，比如身高，温度等，对于连续的变量，分布函数是基于密度函数积分获取，不管怎么样，可以通过密度函数获知某个区间范围内的概率，比较典型就是正太分布。

但是注意离散型和连续型分布值有着本质的区别，对于离散型数据分布函数F(A)=30%，就是代表A的概率是30%，但是对于连续性变量分布函数F(X) = 5%，则代表的是P(X<=X) = 5%，表达的是一个区间值概率的概念。

posted on 2019-12-24 20:43 张叫兽的技术研究院阅读(673) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航

公告