山东大学2024《数据可视化》期末复习大纲 & 考题预测
授课老师:LN,资料来源:课堂ppt
1.什么是可视化,可视化有什么作用
定义:用可视化的手段解释动作和过程
作用:记录信息,分析推理,证实假设,交流思想
2.什么是变化盲视?
人们在同时经历多样事物的发生时往往只关注其中一样而忽视了其他事物的发生
3.请列举常用的可视化工具
Tableau,R,D3,Echarts,Google Refine
4.什么是格式塔理论?举例五个格式塔原则
定义:(1)人们在进行观察时倾向于将视觉感知内容理解为常规的、简单的、相连的、对称的或有序的结构。(2)人们在获取视觉感知的时候会倾向于将事物理解为一个整体而非组成该事物的所有部分的集合。
举例:贴近原则(对空间距离较近的物体视觉上归为一组),相似原则(根据事物相似性进行感知分组),对称性原则(倾向于识别为对称物体),闭合原则(忽视未闭合特征),连续原则(连着物体边界将不连续物体视为连续),经验原则,共势原则,好图原则
5.脑神经感知颜色有哪些特性?
(1)颜色恒定性
(2)人脑对颜色的感知取决于该颜色与周围颜色的关系
(3)人脑对亮度变化要比对色相变化更敏感
6.什么是色彩空间?请举例典型的色彩空间
色彩空间:用一组数字表示颜色的抽象数学模型
RGB/CMYK、HSL/HSV、绝对色彩空间/相对色彩空间
7.色盲的解决方案
(1)减少受色盲影响的颜色混用
(2)必须混用时,配合符号混用
8.什么是视觉假象?举例常见的五种
定义:人们通过人眼获得的信息被大脑处理后形成的对事物的感知,与事物在客观世界中的物理现实不一致
举例:细胞错觉,尺寸错觉,不可能错觉,运动错觉,轮廓错觉
9.什么是可视化编码?由什么构成?
定义:将数据映射成可视化元素的技术
构成:标记+视觉通道
10.解释视觉通道的表现力和有效性
表现力:要求视觉通道准确编码数据包含的所有信息(忠于原始数据)
有效性:通道表现力符合数据属性的重要性
11.有哪些指标用于衡量视觉通道的表现力?
(1)精确性:描述人类感知系统对于可视化的判断结果和原始数据的吻合程度
(2)可辨性:视觉通道可以具有不同的取值范围
(3)可分离性:一个视觉通道的使用可能会影响人们对另外视觉通道的正确感知,从而影响用对可视化结果的信息获取
(4)视觉突出:指仅仅在很短的时间内(200~250ms),人们可以仅仅依赖感知的前向注意直接发觉某一对象和其他所有对象的不同
12.大数据时代的数据特点,数据有哪些属性?有哪些特征?
数据特点:大量、高速、多样、低价值密度、真实性
属性:数值型、类别型、离散和连续型、有序型
特征:均值、方差、中位数、相似度和相异度
13.为什么要数据变换?有哪些数据变换方法?
目的:更好地解决特定问题,提供更多可视化设计选择
方法:线性、对数、arctan变换、聚类、采样、降维、标准化、拟合
14.列举常见的统计图表和视觉通道
图表:条形图,柱状图,饼图,折线图,盒须图
视觉通道:位置、大小、色调、饱和度、方向、形状、亮度
15.什么是45度角原则
夹角相等的两条线段,当平均决定角度为45时能最大程度被区分
16.什么是ETL?
将数据从来源端进行提取(Extract)、转换(Transform)、装载(Load)至目的端的过程
17.探索性数据分析中有哪些可视化方法?
(1)原始数据绘图
(2)简单统计值标记
(3)多视图协调关联
18.数据可视化的三个核心要素是什么?
(1)数据处理和变换
(2)可视化映射
(3)用户感知
19.可视化质量的衡量指标有那些?
尺寸、视觉有效性、特征保留度
20.举例常见的NoSQL数据库,并说明特性
(1)Neo4j:键值对存储
(2)MongoDB:分布式文档存储
(3)Apache HBase:基于列模式,适合非结构化数据存储
(4)Apache CouchDB:面向文档存储,提供JSON格式的REST操作接口
21.什么是数据仓库?
数据仓库是面向主题的、已整合的、时变且稳定的数据集合,用来支持管理的决策过程。
22.什么是视觉隐喻?有什么用?
定义:用真实的物体表达抽象的概念或额外的含义
作用:让内容表达更出色,符合日常认知,引起观众思考,增加趣味性和更多含义
23.小面积和大面积区域的感知特点和设计原则
特点:小面积区域颜色难于感知;大面积区域如果颜色明亮,会使得面积看上去更大
原则:小区域使用明亮、高饱和度颜色,在大区域使用低饱和度颜色
24.有序型数据和数值型数据的设计原则
有序型:亮度和饱和度有内在的有序性,对顺序型数据非常有效
数值型:可以使用离散或连续的颜色映射表达
25.K-means和K-medoids的流程及区别
(1)K-means:
①随机选取K个质心的值
②计算各个点到质心的距离
③将点的类划分为离它最近的质心,形成K个cluster
④根据分类好的cluster,在每个cluster内重新计算质心(每个点的均值)
⑤重复迭代2-4步直到满足迭代次数或误差小于指定的值
(2)K-medoids:
①随机选取K个质心的值 (质心必须是某些样本点的值,而不是任意值)
②计算各个点到质心的距离
③将点的类划分为离他最近的质心,形成K个cluster
④根据分类好的cluster,算cluster内所有样本点到其中一个样本点的曼哈顿距离和(绝对误差),选出使cluster绝对误差最小的样本点作为质心。
⑤重复迭代2-4步直到满足迭代次数或误差小于指定的值
(3)二者区别:
K-medoids的中心位置必须在某个数据点上,且满足”到类内所有数据点的距离之和最小“
26.FlowMap算法流程
(1)Layout Adjustment:调整布局
(2)Primary Clustering:将所有节点聚类
(3)Rooted Clustering:将源/汇移至根节点
(4)Edge Routing:绕开相交的边
27.写出分层显示的Sugiyama算法和力导向布局算法的流程和优缺点
(1)Sugiyama:
①算法流程:
1)创建图层次
2)添加伪节点解决过长的边
3)减少交叉
4)决定各节点的最终坐标
5)安排各条边
②优:美观可读性好,自然的自上而下排列+算法相对快捷+容易实现
③劣:不适用于不具有原生自顶向下顺序的图
(2)力导向:
①算法流程:
1)先给定初始各节点的位置
2)为每一对节点计算排斥力和引力
3)计算合力,沿着合力的方向更新各个节点的位置
4)重复2-3步骤,当节点排列”足够好“时结束更新
②优:灵活,对各种图显示效果都较好+容易实现+有现成的软件包可用
③劣:往往是局部最优+初始位置对结果影响很大+算法复杂度高
28.层次数据可视化的两种基本方法及其优缺点
(1)节点-链接(node-link):将单个个体绘制成一个节点,节点间用连线表示个体之间的层次关系。[优]:关系反映直观,灵活多变。[劣]:复杂度高,密集图不适用
(2)空间填充(space-filling):用空间的分快区域表示数据中的个体,并用外层区域对内层区域的包围表示彼此之间的层次关系。[优]:有效利用空间,支持密集图。[劣]:层次结构表达不显著
29.正交布局和径向布局的优缺点
正交布局:[优]:与视觉习惯吻合,直观。[劣]:对大广度层次结果会出现不合理的长宽比
径向布局:[优]:三维空间利用更充分,使用三维降低认知成本,好看。[劣]:难避免节点重叠,3D渲染使交互性能难保证
30.常见统计图的标记、必备视觉通道、常见视觉通道
(1)散点图:
①标记:点
②必备:x,y坐标
③常见: 大小、色彩、形状
(2)折线图:
①标记:线
②必备:拐点的x,y坐标
③常见:色彩、形态、宽度
(3)柱状图:
①标记:矩形
②必备:矩形高度+x坐标次序
③常见:色彩、纹理、y坐标绝对位置
(4)扇型图:
①标记:扇形
②必备:扇形对应的弧度
③常见:色彩、纹理、半径
(5)箱须图:
①标记:矩形+点+线
②必备:矩形+y坐标位置+x坐标次序
③常见:矩形形状
31.什么是标签云?Wordle算法,停用词,词袋模型、TF-IDF
标签云:抽取文本中的关键字,并按一定顺序、规律和约束整齐美观地排列在屏幕上
Wordle算法:改进关键词的布局算法,用户可自定义填充区,从而提高空间利用率。
TF-IDF:TF-IDF(w)=TF(w)*log(N/DF(w))
32.7种基本可视化交互方法
选择、导航、重配、编码、过滤、关联、具象/抽象