描述统计-分布形态,相对位置度量和异常值检测

横看成岭侧成峰,远近高低各不同 ,统计从不同的角度来衡量一个事物或者现象。

举个例子,

篮球中运动员的投篮。

一阶矩,平均数,表示运动员一场比赛下来,三分球一般可以进几个。

二阶矩,方差,表示每场比赛投篮的变动情况。表现浮动大不大。

三阶矩,偏度,表示一个队特有的变动情况。如果偏度变化,可能是换了一个队。

描述分布形态的偏度,主要反映了概率密度函数的不对称性。

 

 

公式:

 

SQL 

declare @cn int, @av float, @sd float
select @cn = count(1), @av = avg(score), @sd = stdev(score) from #
select @cn*sum(power(score-@av,3))/((@cn-1)*(@cn-2)*power(@sd,3))偏度 from #

power(X,Y)函数是计算X的Y次幂的

excel

SKEW(number1,number2,...)

R语言

moment 包 skewness()

z-分数

z-分数描述单个数据的聚集程度,用单个数据距离平均值有几个标准差来表示来确定一个数距标准差具体有多远。

公式:

Z-分数的用处很广泛。学生成绩就是用Z-分数划分的,还有异常值的检测,再就是支付宝败家星座排行。

节选知乎上的一个很好的例子。

 

 

十二星座的平均数和标准差

十二星座的z分数

这是转换后的数据,对绝对值超过0.5不到1的标了绿色,对绝对值超过1的标了红色。
就数据本身而言,只有当年的并没有太大的分析意义,如果上述数据是十年的数据平均,那么才能一定程度说明问题,以下分析就暂且当今年数据具有代表性而言。

统计而言,一个标准差之外的数据才有一定的意义,由此我们可以看到水瓶男、天蝎女比其他的同性更具花钱的欲望,当然我们可以看到严重的异类处女座。处女的数据已经严重偏离,而这说明要么处女本身的奇葩属性,要么就是如上面一位匿名用户所描述那样,存在着刻意伪造星座的可能。

然后继续按照目前的男女比例5.5:4.5,进行考察

 

可以看出处女座还是奇葩的在边界值以外。但是其他值差异性不大,从统计学上看,不具差异性。

 SQL :

AVG(mdm)as AVG,STD(mdm) as STD,(TP-AVG)/STD

EXCEL: X-AVERAGE(A:B)/STDEV(A:B)

R 语言:scale(x,center=TRUE,scale=TRUE) 

切比雪夫定理

与平均数的距离在z个标准差之内的数据值所占的比例至少为(1-1/z*z),其中z为大于1的任意实数。

z=2,3,4时

与平均数的距离在2个标准差之内的数据值所占的比例至少为75%

与平均数的距离在3个标准差之内的数据值所占的比例至少为89%

与平均数的距离在4个标准差之内的数据值所占的比例至少为94%

切比雪夫定理的优点之一是它适用于任何数据集,如果一个数据集的分布符合钟形分布。当分布近似于这种分布,可以使用经验法则来确认与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。

对于具有钟形分布的数据,

68%的数据值与平均数的距离在一个标准差。

95%的数据与平均数的距离在两个标准差。

几乎所有的数据与平均数的距离在三个标准差。

 

 

 

 

 

posted on 2015-05-08 15:57  小麦粒  阅读(1444)  评论(0编辑  收藏  举报

导航