统计分析_集中趋势and离散程度

1.数组的集中趋势-如何定义数组的中心

1.1 常用几下几个指标来描述一个数组的集中趋势

均值-算术平均数

[公式]

中位数-将数组升序或降序排列后,位于中间的数。

众数-数组中出现最多的数。

 

1.2 指标特点

 

  优点 缺点
均值 充分利用所有数据,包含最多信息量,适用性强,应用最为广泛 极易受到异常值的影响,产生数据倾斜
中位数 避免异常值的影响 不敏感
众数 能够很好反应数组的集中趋势 当数组没有明显的集中趋势时,基本没有信息量

 

1.3 均值使用场景

场景:双11过后,淘宝店需要选择一个指标代表十一月的销售情况,应该如何选择呢?日均销售额是否适合?

回答:如果需要对外公布业绩或是向供应商结算的时候,日均销售额可用,因为这是十一月的真实数据。但如果需要依赖十一月销售额推断十二月销售额时或是判断十一月销售能力对比十月是否有提升时 ,十一月日均销售额不可用,因为双十一销售额的猛涨强依赖于外部环境变换,这种情况下双十一销售额为异常值,不可能在十二月复现,这种情况下十一月日销售额中位数优于日均销售额。

总结:在判断3个代表集中趋势的判断指标使用场景时,应该优先判断均值是否可用。当统计样本中存在极大值或极小值,且极值在我们需要处理的场景中不会复现,这种情况下均值不可用。

 

1.4 EXCEL和Python语言中的实现

EXCEL

均值:average(数组);

中位数:median(数组),quantile(数组,[quart]),0-最小值,1-下四分位数,2-中位数,3-上四分位数,4-最大值;

众数:mode(数组)

 Python

import numpy as np

from scipy import stats

均值:np.mean(数组)

中位数:np.median(数组)

众数:stats.mode(数组)[0][0]

 

2.数组的离散程度-数据的稳定程度

仅适用集中趋势无法提供充足的信息,结合集中趋势和离散程度才能更好的理解数据。

2.1 常用以下四个指标描述数组的离散程度

极差:最大值-最小值(上界-下界),代表数据的宽度,是度量数组离散程度最简单的指标。

局限性:仅是度量数组宽度,难以得出数据的真实分布形态,容易受异常值的影响。

四分位距:上四分位数-下四分位数,仅适用数据中央50%的数据,剔除异常值的影响。

方差:数值与均值的距离的平方数的平均值,一般情况下会用样本方差来估计总体方差。

总体方差为:

[公式]

样本方差为:

[公式]

标准差:方差的平方根,度量数据与均值的距离。

拓展:标准分=距离均值的标准差个数,可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同,标准分将几个数据集转换成z分布,这个分布均值为0,标准差为1。

 

2.2 EXCEL和Python语言中的实现

EXCEL

极差:Max(数组)-Min(数组)

四分位距:quantile(数组,3) - quantile(数组,1)

方差:Var(数组)

标准差:Stdev(数组)

 Python

import numpy as np
from scipy import stats
import pandas as pd

#离散趋势相关指标
print("极差:",np.max(df)-np.min(df))
print("四分位差:",np.percentile(df,75)-np.percentile(df,25))
print("标准差:",np.std(df))
print("方差:",np.var(df))

 

2.3 小结

离散程度标志着数组的稳定性高低,两个数组对比时,综合比较均值和标准差/方差,可以更好的理解数据。

 

2020-04-15 17:07

 

posted @ 2020-04-15 17:08  傅余生  阅读(2631)  评论(0编辑  收藏  举报