数据分析模型
数据分析模型组成
《Visualization Analysis & Design》这本书中提到的数据分析模型,这个模型分为三个部分:认识数据、确定任务和设计方案。
认识数据:What
认识数据的核心就是确定数据的类型,只有正确地认识数据类型才能选择正确的可视化方法。总的来说数据分为三个层次:数据集、数据和属性,这里需要说明一下层次中的数据和前面提到的数据是不一样的:前面是一个统称,这里的是具体的实例。数据是由一些数据集(DataSet) 构成的,数据集又是由一条条数(Data) 构成的,每一条数据是由属性(Attribute) 构成的。接下来我们就分别看看它们对应的类型。
数据集类型
数据集主要分为:表格(Table) 、网络(Network) 和几何(Geometry) 。
- 表格是由行(Row)和列(Col)构成。对于一个一维表格(Flat Table)来说,每一行是一个实体( Item ) ,每一列是该实体的一个属性(Attribute ) 。
- 网络数据主要用来表示实体之间的关系,在网络中的实体往往被称作为节点( node ) ,节点之间的关系被称作为链接(link) 。
- 位置(Position) 去描述一个实体的形状,这些实体可能是点,线,平面等。
数据类型
数据的主要种类是:实体( Item ) 、链接(Link)、位置(Position) 和属性(Attribute) 。
- 实体是一个单独的个体,比如表格中的一行,网络中一个节点。可以是一个人,也可以是一只蚂蚁。
- 链接是实体之间的关系(Relationship)。
- 位置是空间数据,描述二维或者三维空间的一个位置。
- 属性是一个可以被测量、观察和记录的特性,所有的实体、链接和位置都由属性构成。属性又被称为变量(Variable) 或者数据维度(Data Dimension) 。
确定任务:Why
我们需要一些确定的词去描述任务,去将这些任务一步步抽象,变成和领域知识没有关系的描述。这些词可以分成两个部分:行动(Action) 和目标(Target) 。
行动:Action
行动是动词,主要用来描述用户想要通过可视化达到的目的。这里主要介绍最常见的两种行动:发现(Discover)和展现(Present)。
目标:Target
目标是动词,是用户对数据感兴趣的方面,对于不同的数据类型可能会有不同的目标。
设计方案:How
在设计一个可视化的时候,我们主要有多种基本手段比如:分面(Facet) ,操作(Manipulate) 和减少(Reduce) ,但是这里主要介绍编码(Encode) 这种方式。上一章节里面提到:“数据可视化将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等”,这个从数据到视觉元素的过程就是编码。
编码过程主要有两个部分:布局(Arrange) 和映射(Map) 。布局的主要任务就是确定视觉元素在最后画布上的位置,映射的主要任务就是用视觉元素的属性去表示数据的属性。比如在条形图中,我们需要根据数据种类确定每一个条的位置,这就是布局,也需要去确定数据的大小却确定每一个条的高度,这就是映射。