描述统计-数据中心的位置

平均数,中位数和众数重在分析数据的集中趋势。都可作为数据一般趋势的代表。

数据分析的基本概念:

1.平均数(mean):提供数据中心位置的度量。反映一组数据的平均大小。代表平均水平。平均数和每一个数相关,任何一个数字的变动都会影响到平均数。主要缺点是非常的容易受到极端数据的影响,如果遇到了极端大值,那么整体的平均数都会偏高,如果遇到了极端小值,那么整体的平均数就会降低。SQL 语句 AVG(数据集), EXCEL 公式 average(数据集)。R语言 mean(x)

2.中位数(median):提供数据中心位置的另外一种度量。将所有数据从小到大排列后,位于中间的数值称为中位数。当观测值为奇数时,中位数就是位于中间的那个数,当观测值为偶数时,中位数就是中间两个观测值的平均数。中位数像一条分界线,将一组数据分成前半部分和后半部分。代表中等水平。中位数只和数据的位置有关,与平均值不同的是,某些数值变动,不会影响中位数的大小。

SQL 语句:

create table state_mid
                as

              select user_id,avg(price)
              from (
                       select e.user_id, e.price
                       from producte e, producte d
                       where e.user_id = d.user_id
                       group by e.user_id, e.price
                       having sum(case when e.price = d.price then 1 else 0 end)>= abs(sum(sign(e.price - d.price)))
                      )t
               group by user_id

 

ps(当一列数列的数量N是奇数的时候。则中位数的那个数字在数列中的数量>=中位数减去所有数字的结果的符号值(1,0,-1中的一个)的和的绝对值。当一列数列的数量N是偶数的时候。这时候用条件筛选出来的就会是最靠近中位数的那两个数字。则为最靠近中位数的那两个数字在数列中的数量>=那两个数字减去所有数字的结果的符号值(1,0,-1中的一个)的和的绝对值。)

EXCEL 公式  median(数据集)

R语言 median(x)

3.众数(mode) 为数据集中出现次数最多的数值。在多众数的情况下,一般不报道众数,因为对于数据位置没有太大作用。通常我们除了找到数据集的众数,还会去统计众数出现的数量。代表多数水平。众数和数据出现的频度相关,同样的,只有部分数值的改变才会对众数的数值产生影响。众数的缺点是不具备唯一性,有时有一个众数,有时有多个众数,有时没有众数。

SQL 语句:

select avg(score) from (select top1 with ties score from dataset group by score order by count(score) desc)t

EXCEL 语句:

mode(数据集)

R 语言

which.max(table(x))

4.百分位数(percentile)第p百分位数满足如下条件的数值,至少有p%的观测值小于或等于该值,且至少有(100-p)%的观测值大于或等于该值。

 SQL 语句

USE AdventureWorks2012;

SELECT DISTINCT Name AS DepartmentName
      ,PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY ph.Rate) 
                            OVER (PARTITION BY Name) AS MedianCont
      ,PERCENTILE_DISC(0.5) WITHIN GROUP (ORDER BY ph.Rate) 
                            OVER (PARTITION BY Name) AS MedianDisc
FROM HumanResources.Department AS d
INNER JOIN HumanResources.EmployeeDepartmentHistory AS dh 
    ON dh.DepartmentID = d.DepartmentID
INNER JOIN HumanResources.EmployeePayHistory AS ph
    ON ph.BusinessEntityID = dh.BusinessEntityID
WHERE dh.EndDate IS NULL;

EXCEL 语句:
PERCENTILE(数据集,百分率)
R 语言
quantile(x,probs) 例如 想要求x 的30%,70%分位点,y<-quantile(x,c(.3,.7))
5.四分位数,四分位数是一种特殊的百分位数,将数据分成四部分,每一部分包含25%的观测值。

好了概念讲到这里,如何运用这些数,或者如何表述这些数,近来一直很困惑我。其实如何表述就是如何打动别人,如何让别人理解这个数据背后的含义。
《商务和经济统计》中有这样一个实例:
Small Fly 设计公司使用独立的销售代表,把产品批发给各批发商店。在这家公司的日常运营中,现金流量管理是最重要的经营活动。而现金流管理中的一个关键因素是对应收账款的控制和分析。通过度量未付款发票的平均期限和资金数额,管理人员能够预测现金供应和监视应收账款状态的变化。
公司设置了以下目标:
未付款发票的平均期限不超过45天;
超过60天的未付款发票的资金数额不应超过所有应收账款的5%

公司使用了下面的描述统计量来衡量未付款发票的期限:
平均数 40天
中位数 35天
众数 31天

解释应用:
一张发票的平局数或者平均期限为40天;
中位数表明有一半的发票已经超过35天未付款;
最常见的发票时间长度为31天。
统计汇总还显示出应收账款总额中只有3%超过60天。

一个分析的有效首先是基准期限的设定,再者就是分析的表述会给读者带来不同的好处。以上是和基准值对比的实例。
下面是两个对象对比的实例。
迪士尼电影 收入(100万美元) 皮克斯电影 收入(100万美元)
风中奇缘 346 玩具总动员 362
钟楼驼侠 325 虫虫危机 363
大力士 253 玩具总动员2 485
花木兰 304 怪物公司 525
泰山 448 海底总动员 865
恐龙 354 超人特工队 631
变身国王 169    
星际宝贝 273    
星银岛 110    
泰山2 136    
熊的传说 250    
疯狂农场 104    
四眼天鸡 249    
       
SUM 3321 SUM 3231
AVG 255.4615385 AVG 538.5
MEDIAN 253 MEDIAN 505
单从票房收入来看,皮克斯和迪士尼的收入总数相当,但是皮克斯每部电影的平均收入是迪士尼的两倍,皮克斯有一半的电影的票房超过505百万,而迪斯尼却是253百万。

从上面的数据也说明了迪士尼有意收购皮克斯的至少一个原因。
还有和历史比的
2007~2008年NCAA的美国大学篮球赛季,男子篮球队试图创投篮历史新高,场均19.07个。为了阻止这么多的3分球投篮,鼓励在禁区里面助攻,从2008~2009年NCAA规则委员会将3分线从19英尺9英寸向后移向20英尺9英寸。由2008~2009年赛季NCAA的19场篮球赛组成的样本,下表为3分球投篮次数和3分球命中次数的样本数据。
投篮次数 命中次数
23 4
20 6
17 5
18 8
13 4
16 4
8 5
19 8
28 5
21 7
17 7
19 10
22 7
25 11
15 6
10 5
11 3
25 8
23 7

 

每场比赛的投篮平均次数为18.42次,每场比赛的命中的平均次数为6.32次,较近的三分线,球员的命中率为35.2%,对新的三分线,球员的命中率为34.29%。在2008~2009赛季,NCAA改变规则,将三分线后移到20英尺9英寸并没有使比赛产生显著变化。





posted on 2015-04-29 10:58  小麦粒  阅读(2004)  评论(0编辑  收藏  举报

导航