3. 描述性统计分析
描述定性数据的图形法和数值法
对给定的类,类(或组)频数是指落入这个类中的观测值的个数。
对给定的类,类(或组)相对频率是指落入这个类中的观测值个数相对于观测值总数的比例。
定性数据的图形描述常用条形图,饼图和帕雷托图。
条形图:给出相应每一类的频数(或相对频率),长方形的高度或长度与类频数(或相对频率)成比例。
饼图:把一个整圆(饼)分成几份,每一份代表一个类,每份中心角与类相对频率成比例。
帕雷托图:将定性变量(即长方形)的类(组)按照高度从左向右降序排列的条形图。
帕雷托图以意大利经济学家 Vilfredo Pareto 命名。
描述定量数据的图形法
定量数据集是由某种有意义的数值标度的数据组成。为了描述、总结和检测这些数据的模型,我们可以采用三种图形法:点图、茎叶图和直方图。
点图
数据集中每一个定量测量的数值表示为水平刻度尺上的一个点,当数值重复时,点垂直画在另一个点之上。
茎叶图
定量变量的数值分为茎和叶两部分,可能的茎按顺序排在一列中,数据集中每一定量测量值的叶放在相应茎的行上,有相同茎的观测值的叶在水平方向按升序排列。
茎是测量值小数点左边的部分,叶是剩下的小数点右边的部分。
直方图
定量变量的可能数值被分成若干组区间,其中每一区间有相同的宽度,这些区间构成了水平轴刻度。确定落在每一组区间中的观测值的频数或相对频率。每一组区间上放一个垂直的长方形,它的高度或者等于频数或者等于相对频率。
描述定量数据的数值法
三种类型的度量
- 中心趋势度量:帮助确定相对频率分布中心位置的度量
- 变异的度量:围绕中心波动的度量
- 相对位置的度量:描述数据集中一个观测值相对位置的度量
两个定义
- 统计量:有样本数据计算得到的数值描述性度量
- 参数:总体的数据描述性度量
中心趋势的度量
算数平均、中位数和众数是三种最常用的中心趋势度量。
变异性的度量
数据变异性最常用度量是极差、方差和标准差。
- 极差:等于y一个数据集合中最大测量值和最小测量值的差。
- 方差
- 标准差
经验法则
若一个数据集有近似丘形的对称分布,则可用以下的经验法则描述数据集:
1. 大约68%的测量值位于均值的1个标准差范围内
2. 大约95%的测量值位于均值的2个标准差范围内
3. 几乎所有的测量值位于均值的3个标准差范围内
相对位置的度量
观测值相对位置的两个度量是百分位数和\(z\)得分。
百分位数
定义
数据集的第\(100p\)百分位数是这样一个\(y\)值:使得在数据集的相对频率分布中有\(100p\%\)的面积位于它的左边,有\(100(1-p)\%\)的面积位于它的右边(其中,$ 0 \leq p \leq 1$)。
中位数是第50百分位数。
对一个数据集而言,第25百分位数、中位数、第75百分位数分别称作下四分位数,中四分位数和上四分位数。
五数概括(five-number summary)由中位数、四分位数(上、下四分位数)、最小和最大观测值组成。
z得分
定义
一个数据集中\(y\)值的\(z\)得分是以标准差为单位度量\(y\)位于均值之上或之下的距离。
样本\(z\)得分:
其中,\(\bar{y}\)是样本均值,\(s\)是样本标准差。
总体\(z\)得分:
其中,\(\mu\)是总体均值,\(\sigma\)是总体标准差。
检测异常值的方法
定义
相对于数据集中其他值不寻常地大或小的观测值\(y\)称为异常值。一般异常值归咎于下列原因之一:
- 观测、记录或输入计算机时不正确的测量值
- 测量值来自不同的总体
- 观测值是正确的,但是代表一个稀有(偶然)事件
使用z得分来检测异常值
经验法则表明,数据集中几乎所有观测值的\(z\)得分绝对值小于3。
使用盒子图来检测异常值
盒图(boxplot)是一种流行的分布的直观表示。盒图体现了五数概括:
- 盒的端点一般在四分位数上,使得盒的长度是四分位数极差(间距)IQR
- 中位数用盒内的线标记
- 盒外的两条线(称作胡须)延伸到最小和最大观测值。
定义
四分位数间距IQR是上四分位数和下四分位数的距离:
内篱笆
外篱笆