异常值的判断
绘制箱型图
假设有n个数据,将其排序
四分位 Q1 = (Σn+1)/4
中位数 Q2 = (Σn+1)/2
四分之三位数 Q3 = 3*(Σn+1)/4
四分位距 IQR = Q3-Q1
- 如果分位有小数,则需要按照间距比例计算出分位数,可理解为数轴上取值
上限:非异常范围内最大值 - Q3+K*IQR
下限:非异常范围内最小值
- Q1-K*IQR
一般来说,K的取值有1.5和3两种,其中:
k=1.5,计算出的是中度异常的范围。
K=3,计算出的是极度异常的范围。
也就是说,通过计算,数值在上下限之间的,则属于正常范围,反之则为异常,而上下触须则为正常范围内最大值与最小值。
3σ准则
- 3σ准则
在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴
3σ原则为
数值分布在(μ-σ,μ+σ)中的概率为0.6826
数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)]区间
内,超出这个范围的可能性仅占不到0.3%.
3σ准则是建立在正态分布的等精度重复测量基础上而造成奇异数据的干扰或噪声难以满足正态分布.如果一组测量数据中某个测量值的残余误差的绝对值 νi>3σ,则该测量值为坏值,应剔除.通常把等于 ±3σ的误差作为极限误差,对于正态分布的随机误差,落在 ±3σ以外的概率只有 0.27%,它在有限次测量中发生的可能性很小,故存在3σ准则.3σ准则是最常用也是最简单的粗大误差判别准则,它一般应用于测量次数充分多( n ≥30)或当 n>10做粗略判别时的情况.