Grubbs' Test

 

目的:
检测异常值Grubbs的检验(Grubbs 1969和Stefansky 1972)用于检测单变量数据集中的单个异常值,该单变量数据集遵循近似正态分布。
如果您怀疑可能存在多个异常值,建议您使用Tietjen-Moore测试或广义极端学生化偏差测试而不是Grubbs测试。

格拉布斯的测试也称为最大标准残差测试。实际上,Grubbs' Test可理解为检验最大值、最小值偏离均值的程度是否为异常。

定义:

Grubbs的测试是针对假设定义的:
H0:数据集中没有异常值
H1:数据集中只有一个异常值


Grubbs的测试统计定义为:

Y和s分别表示样本均值和标准差。 Grubbs的检验统计量是样本标准偏差单位与样本均值的最大绝对偏差。
这是测试的双边检测。 Grubbs的测试也可以定义为以下单边检测:

测试最小值是否为异常值:

用Ymin表示最小值。

测试最大值是否为异常值:

Ymax表示最大值。

显着性等级:α
关键:对于双侧检验,如果没有异常值的假设则被拒绝

 

用tα/(2N),N-2表示具有(N-2)自由度的t分布的临界值和α/(2N)显着性水平。对于单侧测试,我们使用α/ N的显着性水平。

 

▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个( 这些) 数据称作“可疑值”。如果用统计方法—例如格拉布斯(Grubbs) 法判断,能将“可疑值”从此组测量数

据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值( 粗大误差) ”。本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

▲测量数据:例如测量10 次( n= 10) ,获得以下数据: 8.2 、5.4 、14.0 、7.3 、4.7 、9.0 、6.5 、10.1 、7.7 、6.0 。

▲排列数据: 将上述测量数据按从小到大的顺序排列, 得到4.7 、5.4 、6.0 、6.5 、7.3 、7.7 、8.2 、9.0 、10.1 、14.0 。可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x- =7.89和标准差s= 2.704 。计算时,必须将所有10 个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7.89 - 4.7 = 3.19 ;最大值与平均值之差为14.0 -7.89 = 6.11 。

▲确定一个可疑值:比较起来,最大值与平均值之差6.11 大于平均值与最小值之差3.19 ,因此认为最大值14.0 是可疑值。

▲计算Gi 值: Gi = ( xi - x- )/ s;其中i 是可疑值的排列序号— 10 号;因此G10=( x10- x- )/ s= (14.0 -7.89)/2.704 =2.260 。由于x10- x-是残差,而s 是标准差,因而可认为G10 是残差与标准差的比值。

下面要把计算值Gi 与格拉布斯表给出的临界值GP( n) 比较,如果计算的Gi 值大于表中的临界值GP( n) ,则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP( n) 与两个参数有关:检出水平α ( 与置信概率

P有关) 和测量次数n ( 与自由度f 有关) 。


▲定检出水平α:如果要求严格,检出水平α 可以定得小一些,例如定α =0.01 ,那么置信概率P=1- α= 0.99 ;如果要求不严格, α 可以定得大一些,例如定α = 0.10 ,即P=0.90 ;通常定α= 0.05 ,P= 0.95 。

▲查格拉布斯表获得临界值:根据选定的P值( 此处为0.95) 和测量次数n( 此处为10) ,查拉布斯表,横竖相交得临界值G95(10) = 2.176 。

▲比较计算值Gi 和临界值G95(10) :Gi = 2.260 ,G95(10) = 2.176 ,Gi >G95(10) 。


▲判断是否为异常值:因为Gi >G95(10) ,可以判断测量值14.0 为异常值,将它从10 个测量数据中剔除。

▲余下数据考虑:剩余的9 个数据再按以上步骤计算,如果计算的Gi >G95(9) ,仍然是异常值,剔除;如果Gi <G95(9) ,不是异常值,则不剔除。本例余下的9 个数据中没有异常值。

格拉布斯表——临界值GP( n)

对异常值及统计检验法的解释
测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者

换一个角度看,本来就存在一个包含无穷多测量数据的总体。实际的测量只不过是从该无限大总体中随机抽取一个容量为n( 例如n= 10) 的样本。这种样本也可以有无数个,每个样

本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。通常的目的是用样本的统计量来估计总体参量。总体一般假设为正态分布。

异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个( 一些) 数据,其值与总体平均

值相差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ 的数据, 出现的概率很小。用统计判断方法就是将异常值找出来, 舍去。

犯错误1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。

犯错误2:还有一种情况, 不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。

异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。

格拉布斯法最佳:每种统计检验法都会犯犯错误1 和错误2。但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。

多种方法结合使用:为了减少犯错误的概率,可以将3 种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值。

异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算错,转移错误。

——

参考:

https://en.wikipedia.org/wiki/Grubbs%27s_test_for_outliers

https://www.itl.nist.gov/div898/handbook/eda/section3/eda35h1.htm

https://wenku.baidu.com/view/84695b4e852458fb770b56bb?from=timeline&isappinstalled=0

posted @ 2019-04-18 21:20  知是行之始,行是知之成  阅读(3202)  评论(0编辑  收藏  举报