数据散布的度量

原文链接:https://blog.csdn.net/pipisorry/article/details/72820982

 

考察评估数值数据散布或发散的度量。这些度量包括极差、分位数、四分位数、百分位数和四分位数极差。五数概括可以用盒图显示,它对于识别离群点是有用的。方差和标准差也可以指出数据分布的散布。

集中趋势
集中趋势(central tendency)在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值,低层数据的集中趋势测度值适用于高层次的测量数据,能够揭示总体中众多个观察值所围绕与集中的中心,反之,高层次数据的集中趋势测度值并不适用于低层次的测量数据。

在统计学中,集中趋势(central tendency)或中央趋势,在口语上也经常被称为平均,表示一个概率分布的中间值。最常见的几种集中趋势包括算数平均数、中位数及众数。

一维资料的集中趋势可能有以下数种统计方法。

算数平均数 

观测值的总和除以观测值的个数,即x1+x2+x3… +xnn{\displaystyle {\tfrac {x_{1}+x_{2}+x_{3}\ldots +x_{n}}{n}}}。常简称为平均数,也往往是背后概率分布的期望值之不偏估计。

中位数 

将所有观测值按大小排序后在顺序上居中的数值。

众数

出现最多次的观测值。

几何平均数 

观测值的乘积之观测值个数方根,即(x1× x2× x3… × xn)1n{\displaystyle (x_{1}\times x_{2}\times x_{3}\ldots \times x_{n})^{\frac {1}{n}}}

调和平均数 

观测值个数除以观测值倒数的总和,即n1x1+1x2+...+1xn{\displaystyle {\frac {n}{{\frac {1}{x_{1}}}+{\frac {1}{x_{2}}}+...+{\frac {1}{x_{n}}}}}}

加权平均数 

考虑不同群资料贡献程度不同时的算数平均数

截尾平均数(英语:Truncated_mean)(truncated mean) 

忽略特定比例或特定数值之外的极端值后所得的平均数。例如,四分平均数(英语:Interquartile_mean)(interquartile mean)正是忽略25%前及75%后的资料后所得的算数平均数。

全距中点(英语:Midrange)(midrange) 

最大值与最小值的算数平均数,即min(x)+max(x)2{\displaystyle {\frac {\min(x)+\max(x)}{2}}}。

中枢纽(英语:Midhinge)(midhinge) 

第一四分位数与第三四分位数的算数平均数,即Q1+Q32{\displaystyle {\frac {Q_{1}+Q_{3}}{2}}}。

三均值(英语:Trimean)(trimean) 

考虑三个四分位数的加权平均数,即Q1+2Q2+Q34{\displaystyle {\frac {Q_{1}+2Q_{2}+Q_{3}}{4}}}。

极端值调整平均数(英语:Winsorized_mean)(winsorized mean) 

以最接近的观测值取代特定比例的极端值后取得的算数平均数。举例来说,考虑10个观测值(由小到大排列为x1{\displaystyle x_{1}}至x10{\displaystyle x_{10}})的情况下,10%的极端值调整平均数为

x2+x2⏞ +x3+x4+x5+x6+x7+x8+x9+x9⏞ 10{\displaystyle {\frac {\overbrace {x_{2}+x_{2}} +x_{3}+x_{4}+x_{5}+x_{6}+x_{7}+x_{8}+\overbrace {x_{9}+x_{9}} }{10}}},

其中分别以x2{\displaystyle x_{2}}和x9{\displaystyle x_{9}}取代了x1{\displaystyle x_{1}}和x10{\displaystyle x_{10}}。

以上的统计量在多维变数中仍可单独地被套用在各个维度上进行,但并不能保证在转轴后仍维持一致的结果。

平均数、中位数与众数的关系
在左右对称的概率分布中,不同的集中趋势统计量有相同结果,但在偏度远离0时则可能不一致。在单峰型的概率分布(unimodal probability distribution)中,平均数(μ)、中位数(ν)与众数(θ)的关系如下:[4]

|θ − μ |σ ≤ 3{\displaystyle {\frac {|\theta -\mu |}{\sigma }}\leq {\sqrt {3}}},

|ν − μ |σ ≤ 0.6{\displaystyle {\frac {|\nu -\mu |}{\sigma }}\leq {\sqrt {0.6}}},

|θ − ν |σ ≤ 3{\displaystyle {\frac {|\theta -\nu |}{\sigma }}\leq {\sqrt {3}}},

其中σ为标准偏差。至于任一概率分布,[5][6]

|ν − μ |σ ≤ 1{\displaystyle {\frac {|\nu -\mu |}{\sigma }}\leq 1}。

[wikipedia 集中趋势]

偏度Skewness
在概率论和统计学中,偏度衡量实数随机变量概率分布的不对称性。偏度的值可以为正,可以为负或者甚至是无法定义。

在数量上,偏度为负(负偏态)就意味着在概率密度函数左侧的尾部比右侧的长,绝大多数的值(包括中位数在内)位于平均值的右侧。

偏度为正(正偏态)就意味着在概率密度函数右侧的尾部比左侧的长,绝大多数的值(但不一定包括中位数)位于平均值的左侧。

偏度为零就表示数值相对均匀地分布在平均值的两侧,但不一定意味着其为对称分布。

lz正如 贾俊平的书:右偏分布,说明数据存在极大值,拉动均值向极值一方靠近。也就是说正偏态(右偏)是指数据极大值在正(右)的那一侧。

 

负偏态(左)和正偏态(右)

如果分布对称,那么平均值=中位数,偏度为零(此外,如果分布为单峰分布,那么平均值=中位数=众数)。

随机变量X的偏度γ1为三阶标准矩,可被定义为:

γ 1=E⁡ [(X− μ σ )3]=μ 3σ 3=E⁡ [(X− μ )3]   (E⁡ [(X− μ )2])3/2=κ 3κ 23/2 ,{\displaystyle \gamma _{1}=\operatorname {E} {\Big [}{\big (}{\tfrac {X-\mu }{\sigma }}{\big )}^{\!3}\,{\Big ]}={\frac {\mu _{3}}{\sigma ^{3}}}={\frac {\operatorname {E} {\big [}(X-\mu )^{3}{\big ]}}{\ \ \ (\operatorname {E} {\big [}(X-\mu )^{2}{\big ]})^{3/2}}}={\frac {\kappa _{3}}{\kappa _{2}^{3/2}}}\ ,}

其中μ3是三阶中心矩,σ是标准差。E是期望算子。等式的最后以三阶累积量与二阶累积量的1.5次方的比率来表示偏度。这和用四阶累积量除去二阶累积量的平方来表示峰度的方法向类似。

如果假定Y为n个独立变量之和并且这些变量和X具有相同的分布,那么Y的三阶累积量是X的n倍,Y的二阶累积量也是X的n倍,所以: Skew[Y]=Skew[X]/n{\displaystyle {\mbox{Skew}}[Y]={\mbox{Skew}}[X]/{\sqrt {n}}}。根据中心极限定理,当其接近高斯分布时变量之和的偏度减小。

右偏态分布,均值>中位数>众数

既然均值左侧的数比较多,对比中位数左右两侧数一样多,则均值必在中位数的右侧(即这样围成面积才大于0.5)。
另外,lz认为右偏的图像围成面积为0.5的分界点应该在峰值点(众数)的右侧,所以中位数大于众数。(实际上应该是中位数>=众数吧,举个极端的示例就知道了,如[1...2,2,2,2,2,...,10000])

贾俊平的书:右偏分布,说明数据存在极大值,拉动均值向极值一方靠近,而众数和中位数是位置的代表值,不受极值得影响。

峰度Kurtosis
在统计学中,峰度(Kurtosis)衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。

峰度是指数据分布的尖峭程度或峰凸程度。峰度大致有以下三种类型:
  ● 曲线更为隆起时,属于尖顶峰度。
  ● 当数据分布的频数,对众数来说比较分散,使频数分布曲线较正态分布曲线更为平滑的,属于平顶峰度。
  ● 当数据分布的频数,完全符合正态分布的规律,其频数分布曲线与正态分布曲线完全相同时,属于正态峰度。

峰度系数是离差四次方的平均数,再除以标准差的四次方。其计算公式为:
  
  式中,α4 :峰度系数 ,δ4:标准差的四次方。
  由于正态分布的峰度系数为3,所以,当α4>3为尖峰分布;当α4<为平顶分布。

Note: lz所以峰度可以用来检测是否为正态分布。

另峰度也可以(wikipedia)被定义为四阶累积量除以二阶累积量的平方,它等于四阶中心矩除以概率分布方差的平方再减去3:

γ 2=κ 4κ 22=μ 4σ 4− 3{\displaystyle \gamma _{2}={\frac {\kappa _{4}}{\kappa _{2}^{2}}}={\frac {\mu _{4}}{\sigma ^{4}}}-3}

这也被称为超值峰度(excess kurtosis)。“减3”是为了让正态分布的峰度为0。

假定Y为n个独立变量之和,且这些变量和X具有相同的分布,那么:Kurt[Y] = Kurt[X] / n, 但如果峰度被定义为:μ4 / σ4,公式可变得更加复杂。

如果超值峰度为正,称为尖峰态(leptokurtic)。如果超值峰度为负,称为低峰态(platykurtic)。

峰度包括正态分布(峰度值=3),厚尾(峰度值<3),瘦尾(峰度值>3),均看尾部。如下图(>,<写反了):

 

[wikipedia 峰度]

[正态分布检验之偏态与峰度]

皮皮blog

 

 

[概率论:均值、方差与协方差矩阵 ]

标准差(英语:Standard Deviation,SD)
数学符号 σ(sigma),在概率统计中最常使用作为测量一组数值的离散程度之用。标准差定义:为方差开算术平方根,反映组内个体间的离散程度;标准差与期望值之比为标准离差率。测量到分布程度的结果,原则上具有两种性质:

为非负数值;
与测量资料具有相同单位。
简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。从几何学的角度出发,标准差可以理解为一个从n{\displaystyle n}维空间的一个点到一条直线的距离的函数。

重要的是,一个观测一般不会远离均值超过标准差的数倍。精确地说,使用不等式,可以证明最少的观测离均值不超过k个标准差。因此,标准差是数据集发散的很好指示器。

总体标准差
 SD=1N∑ i=1N(xi− μ )2{\displaystyle \ SD={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}}}}

 

μ {\displaystyle \mu }为平均值(x¯ {\displaystyle {\overline {x}}})。

 

总体为随机变量
一随机变量X{\displaystyle X}的标准差定义为:

σ =E⁡ ((X− E⁡ (X))2)=E⁡ (X2)− (E⁡ (X))2{\displaystyle \sigma ={\sqrt {\operatorname {E} ((X-\operatorname {E} (X))^{2})}}={\sqrt {\operatorname {E} (X^{2})-(\operatorname {E} (X))^{2}}}}

须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望值。

离散随机变量的标准差
若X{\displaystyle X}是由实数x1,x2,...,xn{\displaystyle x_{1},x_{2},...,x_{n}}构成的离散随机变数(英语:discrete random variable),且每个值的概率相等,则X{\displaystyle X}的标准差定义为:

σ =1N∑ i=1N(xi− μ )2{\displaystyle \sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}}}} ,其中 μ =1N(x1+⋯ +xN){\displaystyle \mu ={\frac {1}{N}}(x_{1}+\cdots +x_{N})}

然而若每个xi{\displaystyle x_{i}}可以有不同概率pi{\displaystyle p_{i}},则X{\displaystyle X}的标准差定义为:

σ =∑ i=1Npi(xi− μ )2{\displaystyle \sigma ={\sqrt {\sum _{i=1}^{N}p_{i}(x_{i}-\mu )^{2}}}} ,其中 μ =∑ i=1Npixi.{\displaystyle \mu =\sum _{i=1}^{N}p_{i}x_{i}.}

样本的标准差
在真实世界中,找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。

从一大组数值X1,⋯ ,XN{\displaystyle X_{1},\cdots ,X_{N}}当中取出一样本数值组合x1,⋯ ,xn:n<N{\displaystyle x_{1},\cdots ,x_{n}:n<N},常定义其样本标准差:

s=1n− 1∑ i=1n(xi− x¯ )2{\displaystyle s={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}

[wikipedia 标准差]

皮皮blog

 

 

极差/全距
用来表示统计资料中的变异量数(英语:measures of variation),为最大值与最小值之间的差额,即最大值减最小值后所得数值。

R=xmax-xmin

全距为离散程度的最简单测度值,易受极端值影响。其适用于等距变数、比率变数,不适用于名义变数或次序变数。极差没有充分利用数据的信息,但计算十分简单,仅适用样本容量较小(n<10)情况。极差不能用作比较,单位不同 ; 方差能用作比较, 因为都是个比率。

移动极差(Moving Range)
是指两个或多个连续样本值中最大值与最小值之差,这种差是按这样方式计算的:每当得到一个额外的数据点时,就在样本中加上这个新的点,同时删除其中时间上“最老的”点,然后计算与这点有关的极差,因此每个极差的计算至少与前一个极差的计算共用一个点的值。一般说来,移动极差用于单值控制图,并且通常用两点(连续的点)来计算移动极差。

四分位数(Quartile)
四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
四分位数值的选择(存在不同标准)

1 主要选择四分位的百分比值(p),及样本总量(n)有以下数学公式可以表示:

Lp=(n)(p100){\displaystyle L_{p}=(n)\left({\cfrac {p}{100}}\right)}

情况1: 如果 L 是一个整数,则取 第 L 和 第 L+1 的平均值
情况2: 如果 L 不是一个整数,则取下一个最近的整数。(比如 L=1.2{\displaystyle L=1.2}, 则取 2 )
2 n表示项数

确定四分位数的位置

Q1的位置= (n+1) × 0.25

Q2的位置= (n+1) × 0.5

Q3的位置= (n+1) × 0.75

3 另外一种方法基于N-1 基础。即

Q1的位置=1+(n-1)x 0.25

Q2的位置=1+(n-1)x 0.5

Q3的位置=1+(n-1)x 0.75

四分位距(InterQuartile Range, IQR)
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR)。

四分位距通常是用来构建箱形图,以及对概率分布的简要图表概述。对一个对称性分布数据(其中位数必然等于第三四分位数与第一四分位数的算术平均数),二分之一的四分差等于绝对中位差(MAD)。中位数是聚中趋势的反映。

IQR=Q3− Q1{\displaystyle IQR=Q_{3}-Q_{1}}

[wikipedia 四分位数]

变异系数/离散系数Coefficient of Variation
在概率论和统计学中,变异系数,又称“离散系数”,也被称为标准离差率或单位风险,是概率分布离散程度的一个归一化量度,其定义为标准差 σ {\displaystyle \ \sigma }与平均值 μ {\displaystyle \ \mu }之比[1]:

cv=σ μ {\displaystyle c_{v}={\sigma \over \mu }}

变异系数(coefficient of variation)只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。

当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。

变异系数只对由比率标量计算出来的数值有意义。举例来说,对于一个气温的分布,使用开尔文或摄氏度来计算的话并不会改变标准差的值,但是温度的平均值会改变,因此使用不同的温标的话得出的变异系数是不同的。也就是说,使用区间标量得到的变异系数是没有意义的。

 

————————————————


posted @ 2020-03-20 13:48  lonelyshy  阅读(2259)  评论(0编辑  收藏  举报