《统计学》第2章 用图表展示数据
2.1 用图表表示定性数据
1、频数分布表
对数据进行分类,列出所有的类别,然后统计每一类别的频数。
频数:频数分布表中落在某一特定类别的数据个数叫做频数。
有两个变量交叉分类的频数分布表称为列联表,也称交叉表。
定性数据,除了用频数分布表,还可以使用比例、百分比、比率等统计量进行描述。
比例:一个样本中各类别的频数与全部频数之比,通常用于反映样本的构成或结构。
百分比:将样本乘以100得到的数值称为百分比。
比率:样本(或总体)中各不同类别频数之间的比值。
定性数据的图示:条形图、帕累托特图、饼图、环形图。
帕累托特图:该图时按各类别出现的频数多少排序后绘制的条形图。
2.2 用图表展示定量数据
定性数据的图示方法基本上都适用于定量数据,但定量数据还有一些特定的图示方法。
1、频数分布表
需要先将原始数据按照某种标准分成不同的组别,然后统计出各组别的数据频数即可。
(1)对数据分组
一般数据所分组数K应不少于5且不多于15组.
(2)确定各组的组距
组距=(最大值-最小值)除以组数
2、分组数据看分布:直方图
用矩形的高度和宽度(即面积)来展示频数分布。
3、未分组数据看分布:茎叶图和箱线图、垂线图和误差图
箱线图:
不仅可以用于反映一组数据分布的特征,比如分布是否对称,是否存在离群点,还可以对多组数据的分布特征进行比较。
(1)首先找出一组数据的中位数和两个四分位数,并画出箱子
Q75%-Q25%称为四分位差或四分位距,用IQR表示。用两个四分位数画出箱子,并画出中位数在箱子里的位置。
(2)计算出内围栏和相邻值,并画出须线。
内围栏:是与Q25%和Q75%的距离等于1.5倍四分位差的两个点。
下内围栏:Q25%-1.5*IQR
上内围栏:Q75%+1.5*IQR
一般内围栏不在箱线图中显示,只是作为确定离群点的界限。
相邻值:上下内围栏之间的最大值和最小值,其中Q25%-1.5*IQR范围内的最小值为下相邻值,Q75%+1.5*IQR范围内的最大值称为上相邻值。
用直线将上下相邻值分别与箱子连接,称为须线。
(3)找出离群点,并在图中单独标出。
离群点:大于上内围栏或小于下内围栏的数值,也称外部点。
垂线图
可用于展示多个变量或多个样本取值的分布状况。它是将属于同一样本或类别的多个取值的散点用一条垂线连接起来,用垂线的长度及垂线上的各个点来反映某个样本或类别取值的差异及其分布状况。
误差图
误差图是以均值为中心,加减一定倍数的标准差(也可以是加减一定倍数的标准误差)绘制而成的(该图也可以绘制均值的一定置信水平下的置信区间)。
误差图可用于展示多个样本或分类的不同取值的分布情况和离散情况。
3、两个变量之间的关系:散点图
散点图使用二维坐标展示两个变量之间关系的一种图形。
同时比较一个变量与其他变量之间的关系,也可以把它们的散点图绘制在同一张图里,绘制成重叠散点图。
注意:绘制重叠散点图时,变量值之间的数值差异不能过大,否则不便于比较。
同时比较多个变量两两之间的关系,可以绘制矩阵散点图。
4、比较多个样本的相似性:雷达图和轮廓图
雷达图:从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接称线,即围成一个区域,多个样本围城多个区域,就是雷达图。利用它可以研究多个样本之间的相似程度。
轮廓图:平行坐标图或多线图,用横坐标表示各样本(或变量),纵轴表示每个样本的多个变量(或样本)的取值,将不同样本的同一个变量的取值用折线连接,即为轮廓图 。