随笔 - 70  文章 - 0  评论 - 0  阅读 - 1889 

可视化
意即“生成符合人类感知”的图像;通过可视元素传递信息
数据分析的任务通常包括定位、识别、区分、分类、聚类、分布、排列、比较、内外连接比较、关联、关系等。通过将信息以可视的方式呈现给用户,将直接提升对信息认知的效率,并引导用户从可视化结果分析和推理出有效信息。这种直观的信息感知机制,极大降低了数据理解的复杂度,突破了常规统计分析方法的局限性。可视化能显著提高分析信息的效率,其重要原因是扩充了人脑的记忆,帮助人脑形象地理解和分析所面临的任务。

在信息管理、信息系统和知识管理学科中,最基本的模型是“数据、信息、知识、智慧。它以数据为基层架构,按照信息流顺序依次完成数据到智慧的转换。四者之间的结构和功能方面的关系构成了信息科学的基础理论。在数据科学中,这种模型也作为一种数据处理流程,完成从原始数据的转化

数据
从信号获取的角度看,数据是对目标观察和记录的结果,是关于现实世界中的时间、地点、事件、其他对象或概念的描述。在表达为有用的形式之前,数据本身没有用途。
数据即事实:数据是未经组织和处理的离散的、客观的观察。由于缺乏上下文和解释,所以数据本身没有含义和价值。如果将事实定义为真实的、正确的观察那么并不是所有的数据都是事实,错误的、无意义的和非感知的数据不属于事实。

数据即信号:从获取的角度理解,数据是基于感知的信号刺激或信号输入,包括视觉、听觉、嗅觉、味觉和触觉。由于每种感官对应某个信号通道,所以数据也被定义为某个器官能接收到的一种或多种能量波或能量粒子(光、热、声、力和电磁等)。
数据即符号:无论数据是否有意义,数据都可定义为表达感官刺激或感知的符号集合,即某个对象、事件或所处环境的属性。代表性符号,如单词、数字、图表和图像视频等,都是人类社会中用于沟通的基本手段。因此,数据就是记录或保存的事件或情境的符号。
信息
信息是被赋予了意义和目标的数据。信息和数据的区别在于信息是有用的、有意义的,可以回答诸如谁、什么、哪里、多少、什么时候等问题,因此可以赋予数据生命力,辅助用户决策或行动。进一步讲,信息可以采用描述的方式定义知识。。

结构性与功能性:信息是组织好的结构化数据,与某个特定目标和上下文有关联,信息和数据的差别在于结构,而不是两者的功能。
象征性或主体性:信息是通用的、以符号和信号形式存在的数据。另一个观点则认为,信息具有主体性,符合所依附的对象。


数据可视化
1、主要处理统计图形、抽象的地理信息或概念型的空间数据。

2、将数据可视化看成传统的科学可视化和信息可视化的泛称,即处理对象可以是任意数据类型、任意数据特性,以及异构异质数据的组合。大数据时代的数据复杂性更高,如数据的流模式获取、非结构化、语义的多重性等。
数据可视化的作用在于视物致知,即从看见物体到获取知识。对于复杂、大尺度的数据,已有的统计分析或数据挖掘方法往往是对数据的简化和抽象,隐藏了数据集真实的结构,而数据可视化则可还原乃至增强数据中的全局结构和具体细节。当然,数据可视化经常会陷入两个误区:为了实现其获取知识的功能而令人感到枯燥乏味;或者为了画面美观而采用复杂的图形。如果将数据可视化看成艺术创作过程,则数据可视化需要达到真、善、美的均衡,达到有效地挖掘、传播与沟通数据中蕴含的信息、知识与思想,实现设计与功能之间的平衡。

数据可视化分类
数据可视化的处理对象是数据。数据可视化包含处理科学数据的科学可视化与处理抽象的、非结构化信息的信息可视化两个分支。广义上,面向科学和工程领域的科学可视化研究带有空间坐标和几何信息的三维空间测量数据、计算模拟数据和医学影像数据等,重点探索如何有效地呈现数据中几何、拓扑和形状特征。信息可视化的处理对象则是非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据,其核心挑战是如何针对大尺度高维数据减少视觉混淆对有用信息的干扰。另一方面,由于数据分析的重要性,将可视化与分析结合,形成一个新的学科:可视分析学。科学可视化、信息可视化和可视分析学三个学科方向通常被看成可视化的三个主要分支
科学可视化
通常需要对数据和模型进行解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况
科学可视化的基础理论与方法已经相对成形。早期的关注点主要在于三维真实世界的物理化学现象,因此数据通常表达在三维或二维空间,或包含时间维度。鉴于数据的类别可分为标量(密度、温度)、向量(风向、力场)、张量(压力、弥散)等三类,科学可视化也可粗略地分为三类。

1.标量场可视化
标量指单个数值,即在每个记录的数据点上有一个单一的值。标量场指二维、三维或四维空间中每个采样处都有一个标量值的数据场。标量场的来源分为两类。第一类从扫描或测量设备获得,如从医学断层扫描设备获取的CT、MRI三维影像:第二类从计算机或机器仿真中获得,如从核聚变模拟中产生的壁内温度分布。
标量场可以看成显式的数据分布的隐函数表示,即(x,y,z)代表了在点(x,y,z)处的标量值。可视化数据场(xy,z)的标准做法有三种。第一种方法是将数值直接映射为颜色或透明度,如用颜色表达地球表面的温度分布:第二种方法是根据需要抽取并连接满足/x,y,z)=c的点集,并连接为线(二维情形)或面(三维情形),称为等值线或等值面方法,如地图里的等高线,标准的算法有移动四边形法或移动立方体法:第三种方法是将三维标量数据场看成能产生、传输和吸收光的媒介,光源透过数据场后形成半透明影像,称为直接体绘制方法。这种方法可以以透明层叠的方式显示内部结构,为观察三维数据场全貌提供了极好的交互式浏览工具
2.向量场可视化
向量场在每一个采样点处是一个向量(一维数组)。向量代表某个方向或趋势,例如来源于测量设备的风向和漩涡等;来源于数据仿真的速度和力量等。向量场可视化的主要关注点是其中蕴含的流体模式和关键特征区域。在实际应用中,由于二维或三维流场是最常见的向量场,所以流场可视化是向量场可视化中最重要的组成部分。
除了通过拓扑或几何方法计算向量场的特征点、特征线或特征区域,对向量场直接进行可视化的方法包括三类。第一类方法称为粒子对流法,其关键思想是模拟粒子在向量场中以某种方式流动,获得的几何轨迹可以反映向量场的流体模式。这类方法包括流线、流面、流体、迹线和脉线等。第二类方法是将向量场转换为一帧或多帧纹理图像,为观察者提供直观的影像展示。标准做法有随机噪声纹理法、线积分卷积(LIC)法等。第三类方法是采用简化易懂的图标编码单个或简化后的向量信息,可提供详细信息的查询与计算。标准做法有线条、箭头和方向标志符等
3.张量场可视化
张量是矢量的推广:标量可看作0阶张量,天量可看作1阶张量。张量场可视化方法分为基于纹理、几何和拓扑三类。基于纹理的方法将张量场转换为静态图像或动态图像序列,图释张量场的全局属性。其思路是将张量场简化为向量场,进而采用线积分法、噪声纹理法等方法显示。基于几何的方法显式地生成刻画某类张量场属性的几何表达。其中,图标法采用某种几何形式表达单个张量,如椭球和超二次曲面;超流线法将张量转换为向量(如二阶对称张量的主特征方向),再沿主特征方向进行积分,形成流线、流面或流体基于拓扑的方法计算张量场的拓扑特征(如关键点、奇点、灭点、分叉点和退化线等)依次将感兴趣区域剖分为具有相同属性的子区域,并建立对应的图结构,实现拓扑简化拓扑跟踪和拓扑显示。基于拓扑的方法可有效地生成多变量场的定性结构,快速构造全局流场结构,特别适合于数值模拟或实验模拟生成的大尺度数据

信息可视化
信息可视化处理的对象是抽象的、非结构化数据集合(如文本、图表、层次结构、地图、软件、复杂系统等)。传统的信息可视化起源于统计图形学,又与信息图形、视觉设计等现代技术相关。其表现形式通常在二维空间,因此关键问题是在有限的展现空间中以直观的方式传达大量的抽象信息。与科学可视化相比,信息可视化更关注抽象、高维数据。此类数据通常不具有空间中位置的属性,因此要根据特定数据分析的需求,决定数据元素在空间的布局。因为信息可视化的方法与所针对的数据类型紧密相关,所以通常按数据类型可以大致分为如下几类。

1.时空数据可视化
时间与空间是描述事物的必要因素,因此,地理信息数据和时变数据的可视化也显得至关重要。对于地理信息数据可视化来说,合理地选择和布局地图上的可视化元素,从而呈现尽可能多的信息是关键。时变数据通常具有线性和周期性两种特征,需要依此选择不同的可视化方法
2.层次与网络结构数据可视化
网络(图)数据是现实世界中最常见的数据类型之一。人与人之间的关系、城市之间的道路连接、科研论文之间的引用都组成了网络。层次结构(树)则是有一个根节点,并且不存在回路的特殊网络,例如公司的组织结构、文件系统的目录结构、家谱等。层次与网络结构数据都通常使用点线图来可视化,如何在空间中合理有效地布局节点和连线是可视化的关键。
3.文本和跨媒体数据可视化
随着网络媒体,特别是社交媒体的迅速发展,每天都会产生海量的文本数据,人们对于视觉符号的感知和认知速度远远高于文本,因此,通过可视化呈现其中蕴含的有价值的信息将大大提高人们对于这些数据的利用率。我们需要从非结构化文本数据中提取结构化信息,并进行可视化。
4.多变量数据可视化
用于描述现实世界中复杂问题和对象的数据通常是多变量的高维数据,如何将其在二维屏幕上呈现是可视化面临的挑战。多变量数据的可视化方法包括将数据降维到低维度空间,使用相互关联的多视图同时表现不同维度,等等。

数据库与数据仓库
数据库是按照数据结构来组织、存储和管理数据的仓库,它高效地实现数据的录入查询、统计等功能。尽管现代数据库已经从最简单的存储数据表格发展到海量、异构数据存储的大型数据库系统,但是它的基本功能中仍然不包括复杂数据的关系和规则的分析,数据可视化通过数据的有效呈现,有助于对复杂关系和规则的理解。
面向海量信息的需要,数据库的一种新的应用是数据仓库。数据仓库是面向主题的集成的、相对稳定的、随时间不断变化的数据集合,用以支持决策制订过程。在数据进入数据仓库之前,必须经过数据加工和集成。数据仓库的一个重要特性是稳定性,即数据仓库反映的是历史数据。数据库和数据仓库是大数据时代数据可视化方法中必须包含的两个环节。为了满足复杂大数据的可视化需求,必须考虑新型的数据组织管理和数据仓库技术。

数据分析与数据挖掘
数据分析是统计分析的扩展,指用数据统计、数值计算、信息处理等方法分析数据采用已知的模型分析数据,计算与数据匹配的模型参数。常规的数据分析包含三步。

第一步,探索性数据分析,通过数据拟合、特征计算和作图造表等手段探索规律性的可能形式确定相适应的数据模型和数值解法,

第二步,模型选定分析,在探索性分析的基础上计算若干类模型,通过进一步分析挑选模型,

第三步,推断分析,使用数理统计等方法推断和评估选定模型的可靠性和精确度。
不同的数据分析任务各不相同。例如,关系图分析的10个任务是:值检索、过滤衍生值计算、极值的获取、排序、范围确定、异常检测、分布描述、聚类、相关性。
数据挖掘指从数据中计算适合的数据模型,分析和挖掘大量数据背后的知识。它的目标是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、未知的、潜在有用的信息和知识。数据挖掘的方法可以是演绎的,也可以是归纳的。数据挖掘可发现多种类型的知识--反映同类事物共同性质的广义型知识;反映事物各方面特征的特征型知识:反映不同事物之间属性差别的差异型知识:反映事物和其他事物之间依赖或关联的关联型知识;根据当前历史和当前数据推测未来数据的预测型知识;揭示事物偏离常规出现异常现象的偏离型知识。
数据可视化和数据分析与数据挖掘的目标都是从数据中获取信息与知识,但手段不同。数据可视化将数据呈现为用户易于感知的图形符号,让用户交互地理解数据背后的本质;而数据分析与数据挖掘通过计算机自动或半自动地获取数据隐藏的知识,并将获取的知识直接给予用户。

 

posted on   风起-  阅读(92)  评论(0编辑  收藏  举报
(评论功能已被禁用)
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
点击右上角即可分享
微信分享提示