数据可视化基础

数据可视化的设计简化为四个级联的层次

最外层(第一层)是刻画真实用户的问题，称为问题刻画层
第二层是抽象层，将特定领域的任务和数据映射到抽象且通用的任务及数据类型。
第三层是编码层，设计与数据类型相关的视觉编码及交互方法。

最内层(第四层)的任务是创建正确完成系统设计的算法。各层之间是嵌套的，上游层的输出是下游层的输入

第二层将第一层确定的任务和数据从采用特定领域的专有名词的描述转化为更抽象更通用的信息可视化术语的描述。将这些不同领域的需求转化为不依赖于特定领域概念的通用任务是可视化设计人员面临的挑战之一。例如，高层次的通用任务分类包括不确定性计算、关联分析、求证和参数确定等。与数据相关的底层通用任务则包括取值、过滤、统计、极值计算、排序、确定范围、提取分布特征、离群值计算、异常检测、趋势预测、聚簇和关联。而从分析角度看，通用任务包括识别、判断、可视化、比较、推断、配置和定位。在数据抽象过程中，可视化设计人员需要考虑是否要将用户提供的数据集转化为另一种形式，以及使用何种转化方法，以便于选择合适的可视编码，完成分析任务。
第三层是可视化研究的核心内容:设计可视编码和交互方法。视觉编码和交互这两个层面通常相互依赖。为应对一些特殊需求，第二层确定的抽象任务应被用于指导视觉编码方法的选取。第四层设计与前三个层次匹配的具体算法，相当于一个细节描述的过程。它与第三层的不同之处在于第三层确定应当呈现的内容以及如何呈现，而第四层解决的是如何完成的问题。
数据类型

类别型数据:用于区分物体。例如，根据性别可以将人分为男性或者女性;水果可以分为苹果、香蕉等。这些类别可以用于区分一组对象，但是无法提供对象的定量数据。例如，根据性别无法得到对象间的其他信息和联系，如年龄、男女比例等。
有序型数据:用来表示对象间的顺序关系。例如，根据成绩定义运动员的排名跑得越快的运动员名次数越小--排名为“1”的运动员比排名为“2”的运动员跑得要快，依此类推。但是根据对象的顺序，并不一定能得到准确的定量比较。只能得到对象间的顺序关系，而无法根据序数间的数值差别，
区间型数据:用于得到对象间的定量比较。相对于有序型数据，区间型数据提供了详细的定量信息。例如，使用摄氏度来衡量温度，10℃和20℃的差别，与50℃和 40℃的差别是一致的。但是，因为区间型数据基于任意的起始点，所以只能得到对象间的相对差别，并不能定义对象的绝对值。例如，温度计显示0℃，并不表明没有任何温度。
比值型数据:用于比较数值间的比例关系。比值型数据基于真正意义上的0点，可以用来精确地定义比例--4厘米的物体比2厘米的物体长2倍。
不同的数据类型适用不同的操作算子--区分度算子:=≠;序别算子:><;加减算子:+-;乘除算子:*/。类别型数据适用于区分度算子，可以判断不同数据之间是否相等,例如两种水果都是苹果，则认为它们是一类;如果其中一种是香蕉，则是不同类。有序型数据适用于区分度算子和序别算子，因此可以判断大小关系。区间型数据适用于区分度算子、序别算子和加减算子，例如计算温度差和年龄等。比值型数据适用于区分度算子、序别算子、加减算子和乘除算子。
不同的数据类型同时也对应不同的集合操作和统计计算。对于类别型数据集合，可以互换元素间的位置，统计类别和模式，也可以计算列联相关。对于有序型数据集合，可以计算元素间的单调递增(减)关系、中值、百分位数。对于区间型数据集合，可以进行元素间线性加减操作，计算平均值、标准方差等。对于比值型数据集合，由于基数为零除上述三种数据类型所允许的操作外，还可以进行更复杂的计算，例如计算元素间的相似度,或者统计上的变异系数。

图形符号学
在此框架下，图形(可视化)由传输不同信息的图形符号组成。图形符号可以为点、线和面。图形符号用视觉变量描述，包括位置变量和视网膜变量。位置变量定义了图形在二维平面上的位置。视网膜变量包括尺寸、数值、纹理、颜色、方向和形状
在 Bertin 的图形系统框架下，可视化由在二维平面上绘制的点、线或面组成。这些基本元素进而可组成更高级的形式，例如图形、网络、地图和符号。基于这些组合可产生名类图形的视网膜变量。在此基础上，视网膜变量可以表达不同层次的组织，且变量之间存在关联性、选择性、有序性和定量性。
关联性:根据属性可找出图形符号间的对应关系，并且对其进行分类。
选择性:根据属性可找出图形符号所属的类别。
有序性:根据属性可对图形符号进行排序。
定量性:根据属性可从图形符号推导出比例关系或者距离

图形语法

Wilkinson 提出了一种底层统计图形生成语言，可用于构造不同类型的统计图形，Wilkinson 通过语法构造生成复杂的图形，即以自底向上的方式组织最基本的元素形成更高级的元素。图形的构造过程分为三个阶段:规范定义、组装和显示。其中，规范定义是整个语法的基础，描述了不同图形对象间的转变和最终图形显示映射。

基于数据类型的研究
从数据类型出发研究信息可视化过程，将数据分为7类

一维:一维数据指由字母或文字组成的线性数据，如文本文件、程序源代码等。数据以序列的方式组织，其中的每一项是包含字符串的文本行，并且可能附加一些其他属性，例如日期或作者。可视化设计主要针对文字，选择字体、颜色、大小和显示方式。用户需求一般是搜索文本或者数据项，以及相关属性。

二维:二维数据主要是平面或地图数据，例如地理地图、平面图或报纸版面等数据集中的每一项对应于二维平面上的某些区域，可能是规则或不规则的形状每个区域附加多种属性，例如名称、所有者、数值等，以及一些其他特征，如大小、颜色、透明度等。用户需求一般是搜索某些区域、路径、地图放大或缩小、查询某些属性等。
三维:三维数据指三维空间中的对象，例如分子、人体以及建筑物。数据集主要包含三维对象和对象之间的关系，例如计算机辅助设计系统制作的三维模型。用户需求主要是了解对象的属性和对象间的关系。与低维度数据不同，对象包括了位置和方向等三维信息，显示这些对象需要使用不同的透视方法，设置颜色、透明度等参数。
时间:时间数据广泛存在于不同的应用中，例如医疗记录、项目管理或历史介绍数据集中的每一项包含时间信息，如开始和结束时间。用户潜在的需求是搜索在某些时间或时刻之前、之后或之中发生的事件，以及相应的信息和属性。
多维:多维数据中的每一项数据拥有多个属性，可以表示为高维空间的一个点该类数据常见于传统的关系或统计数据库应用中。用户需求包括寻找特征、聚类、变量之间的相关性、差距以及离群值等。可视化设计可以基于二维散点图，对每个维度增加滑块控制。当维度相对比较小的时候，例如小于10，属性可以对应于不同的按钮。多维数据也可由三维散点图表示，但是可能造成信息阻塞等问题。
树:表示层次关系。在树结构中,每一项数据可以连接到另一个父项(除了根节点)每个数据项，以及父项和子项之间的连接，可以有多种属性。基于这些数据项和之间的连接，可定义不同的分析任务，如统计树的层数、每一个数据项的子项数目。
网络:表达连接和关联关系。与树数据类似，数据项和连接关系可以有多种属性并定义一些基本任务。节点连接图以及连接矩阵是常见的网络可视化形式。本书的组织架构和描述方式与这种数据分类方式相对应。

数据状态模型

将可视化技术分解为四个数据转换阶段和三种数据转换操作。不同阶段分别对应不同的算子。整个可视化流程，被分成四个不同的数据阶段:数值、分析抽象表达、可视化抽象表达和视图。三种数据转换操作为:数据转换、可视化转换和视觉映射转换

posted on 2024-08-21 01:04 风起- 阅读(159) 评论(0) 收藏举报

刷新页面返回顶部

数据可视化基础

公告