数据统计分析 — 数据可视化
统计表
统计表是反映统计资料的表格,它一般由四个主要部分组成,即表头、行标题、列标题和数据资料。
设计和使用统计表要注意的几点:
首先,要合理安排统计表的结构。由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过宽的表格形式
其次,表头一般应包括表号、总标题和表中数据的单位等内容
再次,表中的上下两条横线一般用粗线,中间的其他线用细线
最后,在使用统计表时,必要时可在表的下方加上注释,特别要注意应注明数据来源
直方图
直方图用于展示分组数据分布,使用矩形的宽度和高度(即面积)来表示频数分布;
饼图
可以清楚的显示每一部分在总体中的比例,可以用于比较,只能用于一个总体各部分的比例显示;饼图是一种应该避免使用的图表,因为肉眼对面积大小不敏感。
上图中,左侧饼图的五个色块的面积排序,不容易看出来。换成柱状图,就容易多了。
一般情况下,总是应该用柱状图替代饼图。但是有一个例外,就是反映某个部分占整体的比重,比如贫穷人口占总人口的百分比。
柱形图(Bar Chart)
可以用来比较同样单位度量出来的数据。
柱状图是最常见的图表,也最容易解读。
它的适用场合是二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较。年销售额就是二维数据,”年份”和”销售额”就是它的两个维度,但只需要比较”销售额”这一个维度。
柱状图利用柱子的高度,反映数据的差异。肉眼对高度差异很敏感,辨识效果非常好。柱状图的局限在于只适用中小规模的数据集。
通常来说,柱状图的X轴是时间维,用户习惯性认为存在时间趋势。如果遇到X轴不是时间维的情况,建议用颜色区分每根柱子,改变用户对时间趋势的关注。
折线图(Line Chart)数据
折线图适合二维的大数据集,尤其是那些趋势比单个数据点更重要的场合。
它还适合多个二维数据集的比较。
上图是两个二维数据集(大气中二氧化碳浓度,地表平均气温)的折线图。
散点图(Scatter Chart)
散点图适用于三维数据集,但其中只有两维需要比较。
上图是各国的医疗支出与预期寿命,三个维度分别为国家、医疗支出、预期寿命,只有后两个维度需要比较。
为了识别第三维,可以为每个点加上文字标示,或者不同颜色。
雷达图(Radar Chart)
有助于观测多元数据的某些特点;从图中能较难看出数量增减变化的趋势;很难表达出定量的多个指标间的关系。
雷达图适用于多维数据(四维以上),且每个维度必须可以排序(国籍就不可以排序)。但是,它有一个局限,就是数据点最多6个,否则无法辨别,因此适用场合有限。
下面是迈阿密热火队首发的五名篮球选手的数据。除了姓名,每个数据点有五个维度,分别是得分、篮板、助攻、抢断、封盖。
画成雷达图,就是下面这样。
面积越大的数据点,就表示越重要。很显然,勒布朗·詹姆斯(红色区域)是热火队最重要的选手。
需要注意的时候,用户不熟悉雷达图,解读有困难。使用时尽量加上说明,减轻解读负担。
本文来自博客园,作者:VipSoft 转载请注明原文链接:https://www.cnblogs.com/vipsoft/p/17782818.html