赛博空间中的信息获取
赛博空间自提出以来受到各界的密切关注。当前的赛博空间依托于 Internet,已经有了
迅猛的发展。本文主要介绍了赛博空间中信息获取的主要流程,即粗数据获取、数据结构化、
知识发现。并介绍了赛博空间中利用信息获取技术开展的几个成功应用。最后本文提出了如
何把握赛博空间中数据的本质,即流数据,进行信息获取的一些看法。
关键词
赛博空间;信息获取;流数据
Information Acquisition in Cyberspace
Abstract
Cyberspace has received wide attention since it was born. Current cyberspace is based on
Internet, and has rapid development. This article introduces the main process to retrieve
information from cyberspace: raw data retrieval, data formalization, knowledge discovery. Then
the article introduces some successful application in cyberspace. Finally, the article makes some
comments on the data stream retrieval in cyberspace.
Keywords
Cyberspace; information retrieval; data stream
1 引言
赛博空间最早由美国小说家 William Gibson 提出。在他的科幻小说《精神人》中,他将
赛博空间定义为计算机生成的景观,是连接世界上所有人、计算机和各种信息员的全球计算
机网络的虚拟空间[1]。通常认为的赛博空间是在计算机网络上的空间,在这样的虚拟空间
中,用户和服务商、企业等具备其虚拟的身份,对信息进行生成、交换、获得等操作。更广
义的赛博空间如美军所定义的,是包括计算机网络在内的,使用各种电磁能量的整个电磁频
谱空间。
在赛博空间中,随着 Internet 的不断发展,用户人数也不断增长。更重要的是,赛博空
间中的信息,以几何级数爆炸式的增长。广泛的用户群意味着每个用户的兴趣、目的都有所
不同,而海量的信息意味着大量的信息对于某个个体或组织是无用的。所以在当今的赛博空
间中,对于企业或组织而言最重要的是如何发现细分市场,对于个人来说是如何找到自己想
要的信息。这一切都归结到一个问题上,即信息获取。如何在赛博空间中有效合理的获取信
息并加以利用,是在赛博空间中生存并发展的制胜关键。
1
学号序 所谓信息,就是具备意义和价值的内容或数据。因而信息可以根据不同的精度或者说含
有的意义进行分类。 赛博空间中的信息获取一般按照粗数据——结构化数据——知识这样的
梯度进行。其中粗数据是指从赛博空间中直接获取的未经处理的数据。结构化数据是指有一
定格式的,方便算法或技术进行处理的数据。而知识就是我们最终得到的信息,具备一定显
式或隐式的意义。
粗数据的获取通常通过网路爬虫、RSS订阅、搜索引擎等方式。这样获取的数据难以直
接使用,我们需要通过结构化的过程使之结构化,例如存储在关系型数据库中,或以 XML
格式存储。结构化的数据依然面临的格式不匹配和设计过程中的阻抗不匹配的问题,这也是
数据库发展的热点。在结构化的数据上,我们可以在建立数据仓库的基础上,对其进行数据
挖掘以发现知识。
在赛博空间的信息获取过程中,我们可以看到大量已经相对成熟的应用。例如电子商务
领域的点击流数据仓库[7]、Web 仓库[8]、商业智能等。这些电子商务方面的成功应用是推
动赛博空间信息获取技术发展的直接动力。WebGIS和虚拟现实系统如 Aspen[9],构建出的
模拟的赛博空间为科研和模拟现实环境进行了成功的研究。正在构建的物联网系统,将会使
得整个现实世界与赛博空间更加紧密的重叠在一起,这会使得赛博空间的信息得到更大的程
度的爆炸式增长。
尽管赛博空间中已经有如此众多的成功应用,但是如果要更广泛的与现实重叠,还需要
考虑一个很重要的因素,即赛博空间中的数据大多以流数据的形式存在。如何很好的处理、
存储、挖掘流数据,是将来赛博空间信息获取技术所需要考虑的最重要方面。
2 粗数据获取
粗数据的获取是赛博空间中信息获取的第一步。所谓粗数据(Raw Data),是一些未经
过处理的数据,通常具有以下这些特点:可能包含错误、包含不同格式、未被格式化等。这
些数据可能来自于多种途径的调研收集到,也可能是从不同的设备获取的数据。而粗数据又
具备信息量大的特点,更精细的信息都是从粗数据中获得的。
赛博空间中的粗数据获取有别于一般的情景感知系统或其他环境中的数据获取。 赛博空
间的粗数据具有来源丰富但不确定、信息广泛但无结构等难度。对于赛博空间中的粗数据,
我们通常用内容、来源、时间戳三个标签来标记它。赛博空间的粗数据获取主要有这样一些
办法:通过定制的网络爬虫、RSS 订阅、搜索引擎。
网络爬虫
网络爬虫是自动爬取赛博空间信息的程序。它通常从几个初始 URL 开始,不断获取页
面中的更多 URL 添加进队列中,并进一步爬取。 对于特定任务的赛博空间中的粗数据爬取,
我们可以添加更多规则, 如对抓取页面设置权重调整优先级;对页面中的内容进行主题检索,
爬取主题相关页面等等方法。
RSS
RSS通常用于频繁更新、时效性很强的门户或热点网站的订阅。在赛博空间中,扮演邮
递员的角色将热点更新简报递送到用户邮箱中。而 XML 也不是完全的粗数据,已经是具备
一定格式的数据,通常以 XML格式进行表达。
搜索引擎
搜索引擎通过利用网络爬虫爬取或者目录检索的方式处理用户的搜索请求,并返回一定
顺序的检索结果。著名的搜索引擎有 Google、百度等。另外有一些搜索引擎通过租用其他公司的数据库来整合搜索结果。此外搜索引擎还有针对某一细分领域进行特定的搜索,如文
献检索引擎。甚至还出现了更深度的知识搜索引擎,如 Wolfram。
但搜索引擎相对于前两者来说,一定程度上已经不是粗数据的获取。比较好的搜索引擎
如 Google,已经能够针对返回结果的匹配度进行结果排序。新一代的搜索引擎甚至已经在
本文之后提到的结构化数据中进行知识搜索。这已经是相对精细的信息了。
表 1 网络爬虫、RSS、搜索引擎的对比
网络爬虫 RSS 搜索引擎
使用难度 算法设计困难 直接订阅方便 需要合适的关键词
数据来源 可以自定义 十分针对 十分广泛
数据质量 直接爬取质量不高 依赖于站点质量 依赖于搜索引擎
数据数量 大量 较少 大量
3 数据结构化
粗数据的种种性质直接导致其难以直接使用。对其结构化,是利用高效算法进行知识发
现的必要步骤。一方面,粗数据来源多样使得其结构多样,甚至没有结构;另一方面,我们
对粗数据的信息获取希望尽可能简单的实现;因此将不同格式的粗数据进行整理获得结构化
或者半结构化的数据很必要。
结构化数据通常指行数据,存储在关系型数据库中。关系型数据库已经有很完备的关系
代数的支撑,也已经有了大量的高效算法对其进行操作。此外,关系型数据库也是数据仓库
的基础技术。可以说更广泛的知识获取是基于关系型数据库而产生的。
半结构化数据是一种不遵循正式关系型数据库表结构的数据,但通过标签等符号标记出
语义元素[2]。XML 是这样一种半结构化格式,使用一系列简单标记描述数据。XML 可以很
方便的从HTML的网页数据中获取数据,可以用于便捷的交换存储数据等。 而XML也是Office
软件的最常用数据存储方式,如 Microsoft Office, Open Office 等。
表 2 结构化数据与半结构化数据的对比
结构化数据 半结构化数据
灵活性 一般,需要考虑键的约束 较灵活,利用 DTD 或 XSD
查询效率 较高 较低,XPATH
范式 有相对完备的理论 不够完善
即便是格式化的数据依然面临着格式不匹配的问题,这使得数据之间的聚合难以进行。
这通常出现在数据来源不一致的情况下。此外,从技术层面讲,数据库也面临着阻抗不匹配
的问题,即数据库的关系模型,与应用设计中的面对对象模型可能存在的映射断开的现象。
这一切都催生着新型的数据库、新的数据存储方式、新的数据设计思想。
4 知识获得
在结构化或半结构化的数据上,我们可以对其进行深度的数据挖掘,并从中获取有价值
的信息。赛博空间主要依存于 Internet,因此基于 Web 的数据挖掘是最常用也是最重要的技
术。Web 数据挖掘主要的对象有服务器日志数据、在线数据流、Web页面、超链接等。 Web 数据挖掘分为内容挖掘、结构挖掘和访问信息挖掘。
Web 内容挖掘从 Web 信息的文档内容中抽取知识。Web 内容挖掘的策略主要基于搜索
引擎返回的结果。Web内容挖掘又有这样两个方向[3]:文本信息的挖掘和多媒体信息的挖
掘。文本信息的挖掘通常使用自然语言处理(Natural Language Process)的相关算法和技术
进行。例如对 Web 页面的分类可以通过对文本信息的摘要处理,然后对文本内容进行机器
学习,从而进行分类。多媒体信息的挖掘有多媒体的特殊性,不过我们也是按照文本信息挖
掘的思路进行,先对多媒体进行特征提取,在表征为抽象的数据结构之后,按照传统的数据
挖掘方法进行信息挖掘。
Web 结构挖掘是从站点的组织结构和超链接中得到知识。利用超链接及其相关信息,
我们可以对页面进行排序,发现重要页面。以 PageRank[4]为代表的算法是现代搜索引擎的
算法根基。
Web 访问信息挖掘从访问记录中获取知识,对用户访问 Web 在服务器留下的访问记录
进行挖掘。这实际上是记录了用户在赛博空间中的行为。挖掘手段可以有路径分析、关联规
则、序列模式发现、聚类和分类等。Web 访问信息挖掘[5]通过对日志的抽取,得到感兴趣
内容,然后建立模型,最后利用数据挖掘的技术进行相关的访问记录、典型事件、用户行为
等分析。
5 应用
赛博空间中的虚拟身份包括个人用户、企业实体、政府部门、军方等。个人用户为赛博
空间创造了大量数据,并在赛博空间中生活。企业实体从赛博空间中获取信息,应用于现实
生活,同时也为个人用户提供赛博空间的服务。政府部门和军方也渐渐进入赛博空间。
在赛博空间中,如何有效获取并利用信息是十分重要的。一些成功的应用已经充分说明
了这一点。
电子商务的盈利模式已经从构建和维护赛博空间的数据以期望更便捷的商务活动,升级
为从赛博空间的数据中挖掘有效信息并加以利用。电子商务中的 Web 数据挖掘主要就是挖
掘出客户浏览和访问的模式。 一方面可以发现潜在用户,一方面可以为用户提供个性化服务。
而事实上,电子商务也是赛博空间得以发展的最重要动力,当然也是最重要的受益者。
电子商务将传统商务活动中物流、资金流、信息流的传递方式利用网络技术进行整合[6],
把分散的信息进行了集中与数字化(统一形式方便处理)。而且电子商务是一个信息化非常
完全的系统,数据积累在数据库中,有较好的挖掘材料供数据的获取利用。
一些更加针对赛博空间中的信息获取的应用已经开展起来。例如点击流数据仓库[7],
基于网页的技术,通过对 Internet 中最普遍的行为——点击,进行信息获取。更广泛的,
Web 仓库工程[8]将数据仓库与 Web技术结合在一起,以知识作为管理对象构建了基于 Web
的计算机系统和相关工具。更进一步的,商业智能(BI,Business Intelligence)是一个相对
比较成熟的概念, 最早由Gartner Group提出。商业智能包括数据仓库、联机分析处理(OLAP)、
数据挖掘等技术与 ERP系统结合并应用到商业活动中。运用商业智能的服务,企业可以从累
积的大量数据中获取新的知识,并创造新的价值。IBM、Accenture、SAP已经有了相对成熟
的 BI 咨询方案。
地理信息系统中的赛博空间更加贴近于现实生活,这也是赛博空间之父 William Gibson
所构想的赛博空间的实现。 地理信息系统作为现实世界的模拟抽象将现实中的信息建模存储于虚拟系统里。 这样的系统中所包括的信息如能加以利用,能够实现相对于现实的虚拟生活。
对于企业来说,可以进行决策前的信息获取、模拟运营等。美国的 Sandia 国立实验室已经
开发出一个虚拟现实的赛博空间 Aspen[9],用以经济学模拟的研究。该系统模拟出了 1 万个
家庭、1500 家商店,还有银行,用以模拟不同货币、财政政策的影响。产生的数据通过整
理用于经济学研究。
物联网真正将赛博空间推广到了更广泛现实,而不是像 Aspen 系统那样模拟出一个赛博
空间用以在虚拟现实中进行经济学模拟。与互联网联系计算机而形成网络不同,物联网将各
个实物相连构成网络,反应的不仅仅是虚拟的赛博空间,更是一个与现实相重叠的空间。它
利用原本相互独立的嵌入式系统,通过射频识别、红外感应、全球定位、激光扫描等传感设
备相联系,并进行通信。这使得赛博空间中信息获取的第一步,粗数据的获取,得到了更多
元的获取方式。而赛博空间的信息内容也将更加多元。这使得下一代的新工业成为了可能,
根据美国咨询机构 Forrester 预测,到 2020 年,世界上物物互联的业务与人与人通信的业务
相比,将是 30 比 1。这是一个更加广泛的赛博空间,通过物联网我们对于赛博空间的利用
不再是虚拟的数据,而是更加直接的现实。比如我们将水坝接入物联网,传感器获得的数据
存入我们长期积累的数据仓库中,并加以分析,可以明确水坝运行状态,及时预防异常。通
过接入物联网,无论是业务流程的改善还是新业务的增加,都将使物流等系统成为更加直接
的受益者。
由于赛博空间已经成为一个虚拟但又确实存在的一个空间,2006 年11月 2 日,美国空
军秘书处 Michael Wynne 在军事通讯与计算机技术的会议上宣布,美国空军将建立“赛博空
间司令部”以维护军用与民用的虚拟空间即赛博空间[10]。
6 赛博空间中的流数据
前文所提到的成功应用,似乎勾勒出赛博空间中的一个十分美好的愿景。然而现实与虚
拟世界的最大不同在于现实的模糊性和连续性。现实的模糊性可以通过算法的处理来实现,
例如模糊数学的产生就是为了处理这一模糊性。 而现实的连续性直接决定了获取数据的连续
性,使得我们的信息获取技术从根本上需要进行调整。
例如当物联网日趋完善时,诸如温度、湿度等数据均为连续的数据;证券市场中,股价
瞬息万变,也可以认为是粒度非常小的数据。这些数据都有着共同的特性:数据连续、按时
间成一个序列,快速变化,难以随时返回访问。这就是所谓的流数据[11]。
由于流数据的特殊性,我们的算法也有与一般数据不一样的要求:顺序扫描,访问次数
有限,算法要求在线,时间效率优,难以将数据完全存储。
顺序扫描:数据的访问是顺序的,即不倒退,即使倒退也只能倒退有限时间;
访问次数有限:要求一个数据只能获取少量的几次,之后就会如流水一样流走;
算法在线: 对于询问基于当前数据立即回复, 而不是获取全部数据和问题后进行解答;
时间效率优:对于询问能快速回答,最好是小于线性复杂度;
数据不完全存储:无法将每一时刻数据进行存储。
通常能想到的解决方案是通过定时选取观察值来表征这个流数据, 这样将流数据的连续
性转化为离散型。这样的解决方案只是将这样的问题转化为计算机可解而已。此外,算法设
计上通常是采用选取滑动窗口的办法,即只处理从询问到来向前推来实现顺序扫描、访问次数有限、算法在线、不完全存储这些要求。此外我们通过快照或者摘要的方法,将小粒度的
数据根据时间周期聚合成大粒度的数据以达到存储的功能,并且这些历史数据将会为以后的
分析提供更好的方案。
然而时间点的选取和窗口大小的选取都是根据经验得到,难以实现自动选择。如果我们
从流数据的本质特点出发,不难得到另外一种思路,即利用信号处理方面的技术,如小波分
析等。用信号来模拟我们的流数据。小波分析也是数学发展最迅速的一个领域。但是,不能
忽视的是,用传统的方法来处理流数据是不可替代的。因为,除非我们能够实现新的数据库
的模式,否则,对于流数据的存储,我们依然只能按照先前的方法进行。
然而这样粗糙的思路并不能够完美解决流数据的问题,流数据的表达、存储、分析等都
存在各种各样的问题。而流数据在赛博空间中将成为更加重要的研究对象,这是十分值得研
究的领域。
7 总结
本文介绍了赛博空间中进行信息获取的一般方法, 并介绍了基于这些方法所进行的成功
应用。赛博空间中的信息获取主要是基于信息是具备精度的这一前提而进行的。信息根据精
度由粗到细可以分为粗数据、结构化数据、知识。粗数据的获得可以通过网路爬虫、RSS订
阅、搜索引擎等方式;数据的结构化主要是将数据转录到关系型数据库,或者用一定格式存
储(如 XML);知识的获取主要通过建立数据仓库进行数据挖掘的手段。 赛博空间中已经
具备了一些相当成功的应用。例如电子商务中的点击流数据仓库、Web 仓库工程、商业智
能等;地理信息系统中的 WebGIS 和虚拟现实的 Aspen 模拟系统;以及物联网的使用。
然而,这些成熟的技术都是来自于静态的数据,或者说是能够稳定获得,并且反复读取
的数据。事实上,赛博空间中的数据更多的呈现出一种不间断的时间序列特性,即流数据。
通过选取滑动窗口或者小波分析的方法,我们都可以为流数据的处理提供很好的解决方案。
而流数据作为赛博空间中信息的重要存在形式,必将有更加广泛的应用前景。