Fork me on GitHub 0

Pandas之Skewness和Kurtosis

偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。

定义上偏度是样本的三阶标准化矩:

方法:

DataFrame.skew(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)

参数:

axis : {index (0), columns (1)}
定义计算的轴
skipna : boolean, default True
计算时是否忽略空缺值,默认忽略
level : int or level name, default None
numeric_only : boolean, default None

(1)Skewness = 0 ,分布形态与正态分布偏度相同。
(2)Skewness > 0 ,正偏差数值较大,为正偏或右偏。长尾巴拖在右边,数据右端有较多的极端值。
(3)Skewness < 0 ,负偏差数值较大,为负偏或左偏。长尾巴拖在左边,数据左端有较多的极端值。
(4)数值的绝对值越大,表明数据分布越不对称,偏斜程度大。

Skewness 越大,分布形态偏移程度越大。

峰度(Kurtosis)

 

方法:

 

 

DataFrame.kurtosis(self,axis = None,skipna = None,level = None,numeric_only = None,** kwargs )

 

用法:

Parameters
axis{index (0), columns (1)}
Axis for the function to be applied on.

skipnabool, default True
Exclude NA/null values when computing the result.

levelint or level name, default None
If the axis is a MultiIndex (hierarchical), count along a particular level, collapsing into a Series.

Definition:峰度是描述某变量所有取值分布形态陡缓程度的统计量,简单来说就是数据分布顶的尖锐程度

峰度是四阶标准矩计算出来的。
(1)Kurtosis=0 与正态分布的陡缓程度相同。
(2)Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰
(3)Kurtosis<0 比正态分布的高峰来得平台——平顶峰

 

posted @ 2020-03-07 16:32  amazingcode  阅读(1323)  评论(0编辑  收藏  举报