数据可视化概述

  一个优秀的统计图形应该是清晰、精确高效的,其应做到以下几点:

  1、呈现数据;

  2、引导观察者去思考你要传达的主旨信息,而非去想图形是怎么设计的、用什么工具绘制的这类问题;

  3、不扭曲数据的真实信息;

  4、在有限的空间传达尽可能多的你想传达的信息;

  5、针对大数据集,也能保证图标是清晰的、一目了然;

  6、不同元素间的对比明显,可以抓住观察者的眼球;

  7、从概况、细节等不同层面揭示数据隐含的信息;

  8、服务于某一特定目标,如说明某一个问题或探索数据的隐含信息;

  9、与对数据集的描述紧密结合。

  如果运用得当,图表比传统的统计计算更能说明问题,最经典的例子就是安斯库姆四重奏。1973年,统计学家F.J. Anscombe构造了四组奇特的数据,以告诉人们在分析数据之前,对其进行可视化展示是多么重要。

  (安斯库姆四重奏:F.J. Anscombe构造的这四组x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;相关度都是0.816,线性回归均为y=3+0.5x,单从这些统计数据来看,四组数据反映出的实际情况非常相似,但事实上,这四组数据有这巨大的差异。)

图1  四重奏数据集

  尽管各种统计数据显示这四组数据是多么一致,但是透过下面的可视化图表,差异一目了然。

图2  四重奏数据集对应图形

   图形化展示也会得到与上述相反的效果,如下图中,我们很容易将目光锁定在A点,这个看似随意的点将对整个数据集的统计结果产生决定性影响,但需要注意的是:虽然在二维散点图中A看似是一个异常点,但在边缘分布(只关注X轴或Y轴)中,A点和其它点并无明显差异。

图3  有异议的A点

  虽然数据可视化有利有弊,但无论怎样,错误的理论只会产出错误的图形。统计图形与统计计算有一点是相同的,即都取决于输入的数据的质量,再高大上的统计图形也拯救不了错误的操作、荒谬的模型或微小的数据集。

  Done。从下节开始讲述如何使用图形就行高效的沟通。

posted @ 2018-06-29 16:52  ttssrs  阅读(344)  评论(0编辑  收藏  举报