描述统计-数据中心的位置
平均数,中位数和众数重在分析数据的集中趋势。都可作为数据一般趋势的代表。
数据分析的基本概念:
1.平均数(mean):提供数据中心位置的度量。反映一组数据的平均大小。代表平均水平。平均数和每一个数相关,任何一个数字的变动都会影响到平均数。主要缺点是非常的容易受到极端数据的影响,如果遇到了极端大值,那么整体的平均数都会偏高,如果遇到了极端小值,那么整体的平均数就会降低。SQL 语句 AVG(数据集), EXCEL 公式 average(数据集)。R语言 mean(x)
2.中位数(median):提供数据中心位置的另外一种度量。将所有数据从小到大排列后,位于中间的数值称为中位数。当观测值为奇数时,中位数就是位于中间的那个数,当观测值为偶数时,中位数就是中间两个观测值的平均数。中位数像一条分界线,将一组数据分成前半部分和后半部分。代表中等水平。中位数只和数据的位置有关,与平均值不同的是,某些数值变动,不会影响中位数的大小。
SQL 语句:
as
select user_id,avg(price)
from (
select e.user_id, e.price
from producte e, producte d
where e.user_id = d.user_id
group by e.user_id, e.price
having sum(case when e.price = d.price then 1 else 0 end)>= abs(sum(sign(e.price - d.price)))
)t
group by user_id
ps(当一列数列的数量N是奇数的时候。则中位数的那个数字在数列中的数量>=中位数减去所有数字的结果的符号值(1,0,-1中的一个)的和的绝对值。当一列数列的数量N是偶数的时候。这时候用条件筛选出来的就会是最靠近中位数的那两个数字。则为最靠近中位数的那两个数字在数列中的数量>=那两个数字减去所有数字的结果的符号值(1,0,-1中的一个)的和的绝对值。)
EXCEL 公式 median(数据集)
R语言 median(x)
3.众数(mode) 为数据集中出现次数最多的数值。在多众数的情况下,一般不报道众数,因为对于数据位置没有太大作用。通常我们除了找到数据集的众数,还会去统计众数出现的数量。代表多数水平。众数和数据出现的频度相关,同样的,只有部分数值的改变才会对众数的数值产生影响。众数的缺点是不具备唯一性,有时有一个众数,有时有多个众数,有时没有众数。
SQL 语句:
select avg(score) from (select top1 with ties score from dataset group by score order by count(score) desc)t
EXCEL 语句:
mode(数据集)
R 语言
which.max(table(x))
4.百分位数(percentile)第p百分位数满足如下条件的数值,至少有p%的观测值小于或等于该值,且至少有(100-p)%的观测值大于或等于该值。
SQL 语句
USE AdventureWorks2012; SELECT DISTINCT Name AS DepartmentName ,PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY ph.Rate) OVER (PARTITION BY Name) AS MedianCont ,PERCENTILE_DISC(0.5) WITHIN GROUP (ORDER BY ph.Rate) OVER (PARTITION BY Name) AS MedianDisc FROM HumanResources.Department AS d INNER JOIN HumanResources.EmployeeDepartmentHistory AS dh ON dh.DepartmentID = d.DepartmentID INNER JOIN HumanResources.EmployeePayHistory AS ph ON ph.BusinessEntityID = dh.BusinessEntityID WHERE dh.EndDate IS NULL;
EXCEL 语句:
PERCENTILE(数据集,百分率)
R 语言
quantile(x,probs) 例如 想要求x 的30%,70%分位点,y<-quantile(x,c(.3,.7))
5.四分位数,四分位数是一种特殊的百分位数,将数据分成四部分,每一部分包含25%的观测值。
好了概念讲到这里,如何运用这些数,或者如何表述这些数,近来一直很困惑我。其实如何表述就是如何打动别人,如何让别人理解这个数据背后的含义。
《商务和经济统计》中有这样一个实例:
Small Fly 设计公司使用独立的销售代表,把产品批发给各批发商店。在这家公司的日常运营中,现金流量管理是最重要的经营活动。而现金流管理中的一个关键因素是对应收账款的控制和分析。通过度量未付款发票的平均期限和资金数额,管理人员能够预测现金供应和监视应收账款状态的变化。
公司设置了以下目标:
未付款发票的平均期限不超过45天;
超过60天的未付款发票的资金数额不应超过所有应收账款的5%
公司使用了下面的描述统计量来衡量未付款发票的期限:
平均数 40天
中位数 35天
众数 31天
解释应用:
一张发票的平局数或者平均期限为40天;
中位数表明有一半的发票已经超过35天未付款;
最常见的发票时间长度为31天。
统计汇总还显示出应收账款总额中只有3%超过60天。
一个分析的有效首先是基准期限的设定,再者就是分析的表述会给读者带来不同的好处。以上是和基准值对比的实例。
下面是两个对象对比的实例。
迪士尼电影 | 收入(100万美元) | 皮克斯电影 | 收入(100万美元) |
风中奇缘 | 346 | 玩具总动员 | 362 |
钟楼驼侠 | 325 | 虫虫危机 | 363 |
大力士 | 253 | 玩具总动员2 | 485 |
花木兰 | 304 | 怪物公司 | 525 |
泰山 | 448 | 海底总动员 | 865 |
恐龙 | 354 | 超人特工队 | 631 |
变身国王 | 169 | ||
星际宝贝 | 273 | ||
星银岛 | 110 | ||
泰山2 | 136 | ||
熊的传说 | 250 | ||
疯狂农场 | 104 | ||
四眼天鸡 | 249 | ||
SUM | 3321 | SUM | 3231 |
AVG | 255.4615385 | AVG | 538.5 |
MEDIAN | 253 | MEDIAN | 505 |
单从票房收入来看,皮克斯和迪士尼的收入总数相当,但是皮克斯每部电影的平均收入是迪士尼的两倍,皮克斯有一半的电影的票房超过505百万,而迪斯尼却是253百万。
从上面的数据也说明了迪士尼有意收购皮克斯的至少一个原因。
还有和历史比的
2007~2008年NCAA的美国大学篮球赛季,男子篮球队试图创投篮历史新高,场均19.07个。为了阻止这么多的3分球投篮,鼓励在禁区里面助攻,从2008~2009年NCAA规则委员会将3分线从19英尺9英寸向后移向20英尺9英寸。由2008~2009年赛季NCAA的19场篮球赛组成的样本,下表为3分球投篮次数和3分球命中次数的样本数据。
投篮次数 | 命中次数 |
23 | 4 |
20 | 6 |
17 | 5 |
18 | 8 |
13 | 4 |
16 | 4 |
8 | 5 |
19 | 8 |
28 | 5 |
21 | 7 |
17 | 7 |
19 | 10 |
22 | 7 |
25 | 11 |
15 | 6 |
10 | 5 |
11 | 3 |
25 | 8 |
23 | 7 |
每场比赛的投篮平均次数为18.42次,每场比赛的命中的平均次数为6.32次,较近的三分线,球员的命中率为35.2%,对新的三分线,球员的命中率为34.29%。在2008~2009赛季,NCAA改变规则,将三分线后移到20英尺9英寸并没有使比赛产生显著变化。