数据的可视化

数据可视化主要旨在通过图表形式展现数据,清晰有效地传达与沟通信息。但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察,设计人员往往需要很好地把握设计与功能之间的平衡。好的可视化会“讲故事”,能向我们揭示数据背后的规律。

为什么需要数据可视化?原因如下:

1、“字不如表,表不如图”,可视化可帮助快速理清内在逻辑,找到不足或矛盾之处,将少量必须要素传达,将复杂关联性直观展现,利用右脑稳定记忆力让人不至于在分析中迷失方向。

思维导图就是一个很好的例子,默认阅读顺序:从右→左,顺时针方向,通过看思维导图,一些知识点会被清楚的系统的整理,不会遗漏。

2、一堆数字如果单纯用常见的统计量进行判定其内在模式的差异,在有些情况下,会失效,即不同的数据会有部分相同的统计量表现。

如上面的4组数据,每组的X与Y的 统计量如均值、方差、相关系数、回归方程 都一样,单纯从统计的角度看数据,貌似数据之间没有明显的区别,如果用下面的图表示一眼就能看出其中的区别。

当然也有统计量一样,但分布规律不是那么明显的例子

什么时候使用统计方法或者数据挖掘、机器学习一类的方法?

简单而言,数据项多到人眼看不过来时会用到。如果总共就十来个数据项,每个拿出来单独出张图看一眼就看出端倪了,其实就不太需要用挖掘算法。如果总共几百个数据项,想看某一个数据项是受哪几个数据项影响最大,人眼看不过来,用挖掘算法就比较合适。

常见的图表至少包含:标题、横纵坐标轴、数据系列、数据标签、图例等部分,每一部分都在图表中扮演特定的角色、表达特定的信息。

可视化图表的四个概念

1. 维度(Dimension)
如地区、性别、职业等,常常是观察数据的角度,往往是横坐标。特征为类别型字段、一般是离散的、不可进行四则运算。

2. 度量/指标(Measure)
如UV、PV、客单价、活跃用户数,数据的统计值衡量,往往是纵坐标。特征为数值型字段、一般是连续的、可进行四则运算。

3. 离散(Discrete)
字段值各自分离且不相同。如地区,是东南西北不同的值,它们之间没有直接的关系,只要各不相同就行。

4. 连续(Continuity)
字段值构成了一个不间断的整体。如销售额,肯定是从0到一个最大值的区间,观察它时,会按照大小顺序,要么升序要么降序。

图表的类别很多,有柱图、线图、饼图、环形图、气泡、词云、点图、组织图、雷达图、漏斗图、瀑布图、室内GIS、迁徙图、热力图、仪表图、盒须图、地图、表格等,這些都是展示多维数据的图,还有一些是如日历、范围选择器、单选复选列表等,它们的使用场景一般是:

柱图:排名

线图:趋势

饼图、环形图:局部占整体比例

气泡、词云:集中度

散点:多个实体的分布

组织图:流向

雷达图:多指标综合性

地图:看区域性

表格:看具体数据

 

更多的图表类型:http://echarts.baidu.com/index.html 百度的做的不错,可以研究下。

 

posted @ 2017-10-23 11:52  对方正在输入中  阅读(306)  评论(0编辑  收藏  举报