Pandas之Skewness和Kurtosis
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
定义上偏度是样本的三阶标准化矩:
方法:
DataFrame.skew(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)
参数:
axis : {index (0), columns (1)} 定义计算的轴 skipna : boolean, default True 计算时是否忽略空缺值,默认忽略 level : int or level name, default None numeric_only : boolean, default None
(1)Skewness = 0 ,分布形态与正态分布偏度相同。
(2)Skewness > 0 ,正偏差数值较大,为正偏或右偏。长尾巴拖在右边,数据右端有较多的极端值。
(3)Skewness < 0 ,负偏差数值较大,为负偏或左偏。长尾巴拖在左边,数据左端有较多的极端值。
(4)数值的绝对值越大,表明数据分布越不对称,偏斜程度大。
Skewness 越大,分布形态偏移程度越大。
峰度(Kurtosis)
方法:
DataFrame.kurtosis(self,axis = None,skipna = None,level = None,numeric_only = None,** kwargs )
用法:
Parameters axis{index (0), columns (1)} Axis for the function to be applied on. skipnabool, default True Exclude NA/null values when computing the result. levelint or level name, default None If the axis is a MultiIndex (hierarchical), count along a particular level, collapsing into a Series.
Definition:峰度是描述某变量所有取值分布形态陡缓程度的统计量,简单来说就是数据分布顶的尖锐程度。
峰度是四阶标准矩计算出来的。
(1)Kurtosis=0 与正态分布的陡缓程度相同。
(2)Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰
(3)Kurtosis<0 比正态分布的高峰来得平台——平顶峰