3. 描述性统计分析

描述定性数据的图形法和数值法

对给定的类,类(或组)频数是指落入这个类中的观测值的个数。

对给定的类,类(或组)相对频率是指落入这个类中的观测值个数相对于观测值总数的比例。

定性数据的图形描述常用条形图饼图帕雷托图

条形图:给出相应每一类的频数(或相对频率),长方形的高度或长度与类频数(或相对频率)成比例。

饼图:把一个整圆(饼)分成几份,每一份代表一个类,每份中心角与类相对频率成比例。

帕雷托图:将定性变量(即长方形)的类(组)按照高度从左向右降序排列的条形图。

帕雷托图以意大利经济学家 Vilfredo Pareto 命名。

描述定量数据的图形法

定量数据集是由某种有意义的数值标度的数据组成。为了描述、总结和检测这些数据的模型,我们可以采用三种图形法:点图、茎叶图和直方图。

点图

数据集中每一个定量测量的数值表示为水平刻度尺上的一个点,当数值重复时,点垂直画在另一个点之上。

茎叶图

定量变量的数值分为茎和叶两部分,可能的茎按顺序排在一列中,数据集中每一定量测量值的叶放在相应茎的行上,有相同茎的观测值的叶在水平方向按升序排列。

茎是测量值小数点左边的部分,叶是剩下的小数点右边的部分。

直方图

定量变量的可能数值被分成若干组区间,其中每一区间有相同的宽度,这些区间构成了水平轴刻度。确定落在每一组区间中的观测值的频数或相对频率。每一组区间上放一个垂直的长方形,它的高度或者等于频数或者等于相对频率。

描述定量数据的数值法

三种类型的度量

  • 中心趋势度量:帮助确定相对频率分布中心位置的度量
  • 变异的度量:围绕中心波动的度量
  • 相对位置的度量:描述数据集中一个观测值相对位置的度量

两个定义

  • 统计量:有样本数据计算得到的数值描述性度量
  • 参数:总体的数据描述性度量

中心趋势的度量

算数平均中位数众数是三种最常用的中心趋势度量。

变异性的度量

数据变异性最常用度量是极差方差标准差

  • 极差:等于y一个数据集合中最大测量值和最小测量值的差。
  • 方差
  • 标准差

经验法则

若一个数据集有近似丘形的对称分布,则可用以下的经验法则描述数据集:
1. 大约68%的测量值位于均值的1个标准差范围内
2. 大约95%的测量值位于均值的2个标准差范围内
3. 几乎所有的测量值位于均值的3个标准差范围内

相对位置的度量

观测值相对位置的两个度量是百分位数和\(z\)得分。

百分位数

定义
数据集的第\(100p\)百分位数是这样一个\(y\)值:使得在数据集的相对频率分布中有\(100p\%\)的面积位于它的左边,有\(100(1-p)\%\)的面积位于它的右边(其中,$ 0 \leq p \leq 1$)。

中位数是第50百分位数。

对一个数据集而言,第25百分位数、中位数、第75百分位数分别称作下四分位数中四分位数上四分位数

五数概括(five-number summary)由中位数、四分位数(上、下四分位数)、最小和最大观测值组成。

z得分

定义
一个数据集中\(y\)值的\(z\)得分是以标准差为单位度量\(y\)位于均值之上或之下的距离。

样本\(z\)得分:

\[z = \frac{y-\bar{y}}{s} \]

其中,\(\bar{y}\)是样本均值,\(s\)是样本标准差。

总体\(z\)得分:

\[z = \frac{y-\mu}{\sigma} \]

其中,\(\mu\)是总体均值,\(\sigma\)是总体标准差。

检测异常值的方法

定义
相对于数据集中其他值不寻常地大或小的观测值\(y\)称为异常值。一般异常值归咎于下列原因之一:

  1. 观测、记录或输入计算机时不正确的测量值
  2. 测量值来自不同的总体
  3. 观测值是正确的,但是代表一个稀有(偶然)事件

使用z得分来检测异常值

经验法则表明,数据集中几乎所有观测值的\(z\)得分绝对值小于3。

使用盒子图来检测异常值

盒图(boxplot)是一种流行的分布的直观表示。盒图体现了五数概括:

  • 盒的端点一般在四分位数上,使得盒的长度是四分位数极差(间距)IQR
  • 中位数用盒内的线标记
  • 盒外的两条线(称作胡须)延伸到最小和最大观测值。

定义
四分位数间距IQR是上四分位数和下四分位数的距离:

\[IQR = Q_U - Q_L \]

内篱笆

\[\text{下侧内篱笆} = Q_L - 1.5(IQR) \]

\[\text{上侧侧内篱笆} = Q_U + 1.5(IQR) \]

外篱笆

\[\text{下侧外篱笆} = Q_L - 3(IQR) \]

\[\text{上侧外篱笆} = Q_U + 3(IQR) \]

Reference

  1. 统计学
  2. 数据挖掘概念与技术
posted @ 2018-06-10 18:04  BerMaker  阅读(904)  评论(0编辑  收藏  举报