假设检验中的第一类错误和第二类错误
我们每天都在为选择进行自己的假设,并且按照自己认为最好的方向做出选择,所以假设在我们的生活中是无处不在的,例如:A 路是否会比 B 路花费更少的时间,X 的平均投资回报率是否高于 Y 的投资,以及电影 ABC 是否比电影 XYZ 好。在所有这些情况下,我们都在对我们做出的假设进行检验。
建立假设,使用数据证明/反驳它们,帮助企业做出决策,这是数据科学家的实际工作。人们通常依靠概率来理解偶然观察数据的可能性,并利用它围绕假设得出结论。概率永远(几乎!)不会 100%,这反过来意味着我们永远无法 100% 确定我们的结论。所以在围绕我们假设的假设得出结论时,总是会出现错误的情况。
下面的本文就是对统计假设检验期间发生的 Type-I和 Type-II 错误的直观而详细的解释。
假设检验
假设检验是通过观察样本数据来检验围绕总体参数的假设的领域,因为我们很少有整体的数据,所以只能从整体中进行抽样观察。
这通常是通过从假设的中性状态(称为原假设、零假设、虚无假设)开始并根据观察到的样本数据证明或反驳这一点来完成的。
- 原假设 (H0) 是假设总体数据中的现状(无关系或无差异)的中性假设。
- H1 是 H0 的备选项,称为备择假设也被称为对立假设。
假设检验的基本思想是概率性质的反证法。根据所考察问题的要求提出原假设和备择假设,为了检验原假设是否正确,先假定原假设是正确的情况下,构造一个小概率事件,然后根据抽取的样本去检验这个小概率事件是否发生。
假设检验过程如下:
假设 H0 → 观察样本数据 → 拒绝或不拒绝 H0
我们假设中性 H0 为真,并在观察到的数据中寻找“拒绝”或“不拒绝”H0 的证据。根据观察到的样本数据,我们计算观察到的统计量和观察到的 P 值;例如:从我们观察到的样本中获得的假设 H0 为真的概率。
然后将该观察到的 P 值与预先确定的显著性水平(或 Alpha 值)进行比较。此 Alpha 值充当阈值,超过该阈值会认为观察到的结果具有统计显着性。基于观察到的 P 值与预先选择的阈值 alpha 值的比较,就可以就假设的 H0 得出结论:
- 观察到的 P 值 ≤ 预选 Alpha 级别 → 拒绝 H0
- 观察到的 P 值 > 预选的 Alpha 级别 → 不拒绝 H0
由于观察到的 P 值是一个概率,因此总是有可能对“拒绝”或“不拒绝”原假设做出错误的判断。
在下图 1 中,左侧是假设的原假设 (H0) 总体分布,右侧是备择假设 (H1) 总体分布。(两者都是未知的和假设的,因为没有整体的数据,只是根据抽样的样本判断)。观察到的样本将位于这些分布的某个位置,基于此我们将得出关于我们的零假设 (H0) 的结论。
图1 :零假设(H0)分布和备选假设(H1)分布
如果分布没有重叠,我们将永远不会在结论中观察到错误。但是在实际情况中,它们几乎总是重叠的。Type-I 和 Type-II 错误发生在这两个分布重叠的地方。
需要说明的是:对于原假设, 我们可以根据在数据中观察到的证据“拒绝它”,也可以“不拒绝它”,因为观察到的数据没有带来足够的重要证据。
假设检验:可能性
实际上,H0 只有两个选项——它可以是 True 或 False。同样,根据观察到的数据,我们只能得出两个可能的结论——我们可以拒绝 H0 或不拒绝 H0。
其实这就变成了一个二分类的问题,H0是正确的还是错误的
- H0 是真,但是拒绝 H0
- H0 是真,不拒绝 H0
- H0 是假,拒绝 H0
- H0 是假,不拒绝 H0
(2)和(3),我们正在根据观察到的数据做出正确的结论。
(1)和 (4),我们得出了错误的结论,因为观察到的数据发现与现实背道而驰。在场景 (1) 和 (4) 中,就是本文要解释的 Type-I 和 Type-II 错误。
如果你对统计学不了解,但是知道一些机器学习的理论的话,可以使用下面的类比方法:上面的1-4其实就是我们一直说的混淆矩阵,2,3是分类正确的值,即 TP 和 TN,1,4则是FP和FN。
Type-I 第一类错误
Type-I错误是指当原假设实际上为真时拒绝原假设的场景。根据我们观察到的数据得出结论是观察到的结果在现实中具有统计意,但是我们认为它是无意义的。
如上所述,“拒绝”或“不拒绝”零假设取决于观察到的 P 值和预先确定的 alpha 值。所以在某些情况下,真实的原假设将被拒绝,因为观察到的 P 值将小于预先选择的 Alpha 水平。这就是Type-I错误的内容:False-Positive
对于Type-I错误场景:
- 真实情况H0 对总体为真
- 观察结论拒绝H0
对于对总体正确的原假设,如果我们反复采样,可以得到原假设分布曲线,显示所有可能观察到的样本结果的概率。(下图2左侧H0分布)
当我们观察一个样本时,我们拒绝 H0,这意味着这个观察到的样本必须位于 H0 分布曲线的最右侧,与 H1 分布曲线重叠。下图 2 表示这种情况:
图2:Type-I错误的概率
Type-I错误的区域,称为临界区域,表示在零假设分布曲线的右尾端。这是由我们预先选择的 Alpha 值决定的。
如果我们观察到的结果落在这个区域,我们将拒绝零假设(对于这些场景,观察到的 p 值<Alpha)。由于 H0 在现实中是正确的,我们会得出False-Positive结论。
完整文章:
https://www.overfit.cn/post/4d75045d74534fb78322f07131eb4423