数据可视化概述
一个优秀的统计图形应该是清晰、精确且高效的,其应做到以下几点:
1、呈现数据;
2、引导观察者去思考你要传达的主旨信息,而非去想图形是怎么设计的、用什么工具绘制的这类问题;
3、不扭曲数据的真实信息;
4、在有限的空间传达尽可能多的你想传达的信息;
5、针对大数据集,也能保证图标是清晰的、一目了然;
6、不同元素间的对比明显,可以抓住观察者的眼球;
7、从概况、细节等不同层面揭示数据隐含的信息;
8、服务于某一特定目标,如说明某一个问题或探索数据的隐含信息;
9、与对数据集的描述紧密结合。
如果运用得当,图表比传统的统计计算更能说明问题,最经典的例子就是安斯库姆四重奏。1973年,统计学家F.J. Anscombe构造了四组奇特的数据,以告诉人们在分析数据之前,对其进行可视化展示是多么重要。
(安斯库姆四重奏:F.J. Anscombe构造的这四组x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;相关度都是0.816,线性回归均为y=3+0.5x,单从这些统计数据来看,四组数据反映出的实际情况非常相似,但事实上,这四组数据有这巨大的差异。)
图1 四重奏数据集
尽管各种统计数据显示这四组数据是多么一致,但是透过下面的可视化图表,差异一目了然。
图2 四重奏数据集对应图形
图形化展示也会得到与上述相反的效果,如下图中,我们很容易将目光锁定在A点,这个看似随意的点将对整个数据集的统计结果产生决定性影响,但需要注意的是:虽然在二维散点图中A看似是一个异常点,但在边缘分布(只关注X轴或Y轴)中,A点和其它点并无明显差异。
图3 有异议的A点
虽然数据可视化有利有弊,但无论怎样,错误的理论只会产出错误的图形。统计图形与统计计算有一点是相同的,即都取决于输入的数据的质量,再高大上的统计图形也拯救不了错误的操作、荒谬的模型或微小的数据集。
Done。从下节开始讲述如何使用图形就行高效的沟通。