代码改变世界

空间数据、空间数据质量控制、空间数据索引、空间数据仓库

2009-03-11 13:57  闫妍  阅读(258)  评论(0编辑  收藏  举报

空间数据

空间数据(Spatial Data)是指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据。它可以用来描述来自现实世界的目标,它具有定位、定性、时间和空间关系等特性。定位是指在一个已知的坐标系里空间目标都具有唯一的空间位置;定性是指有关空间目标的自然属性,它伴随着目标的地理位置;时间是指空间目标是随时间的变化而变化;空 间关系通常又称拓扑关系。

空间数据适用于描述所有呈二维、三维甚至多维分布的关于区域的现象,空间数据不仅能够表示实体本身的空间位置及形态信息,而且还有表示实体属性和空间关系(如拓扑关系)的信息。在空间数据中不可再分最小单元现象称为空间实体,空间实体是对存在于这个自然世界中地理实体的抽象,主要包括点、线、面以及实体等基本类型:如把一根电线杆抽象成为一个点,该点可以包含电线杆所处的位置信息、电线杆的高度信息和其它一些相关信息;可以把一条道路抽象为一条线,该线可以包含这条道路的长度、宽度、起点、终点以及道路等级等相关信息;可以把一个湖泊抽象为一个面,该面可以包含湖泊的周长、面积和湖水的质量信息等;在空间对象建立后,还可以进一步定义其相互之间的关系,这种相互关系被称为“空间关系”,又称为“拓扑关系”,如可以定义点-线关系、线-线关系、点-面关系等。因此可以说空间数据是一种可以用点、线、面以及实体等基本空间数据结构来表示人们赖 以生存的自然世界的数据。

空间数据是数字地球的基础信息,数字地球功能的绝大部分将以空间数据为基础。现在空间数据已广泛应用于社会各行业、各部门,如城市规划、交通、银行、航空航天等。随着科学和社会的发展,人们已经越来越认识到空间数据对于社会经济的发展、人们生活水平提高的 重要性,这也加快了人们获取和应用空间数据的步伐。

空间数据的质量控制

空间数据的质量控制是针对空间数据的特点来进行的,空间数据的质量主要包括数据完整性 、数据逻辑一致性、数据位置精度、数据属性精度、数据时间精度以及一些关于数据的说明 。空间数据的质量控制就是通过采用科学的方法,制定出空间数据的生产技术规程,并采取 一系列切实有效的方法在空间数据的生产过程中,针对空间数据质量的关键性问题予以精度 控制和错误改正,以保证空间数据的质量。

空间数据的完整性主要是指数据是否覆盖到应该覆盖的范围,比如全国的数据就应该覆盖到全国范围,一个省的居民地就应该包括全省的居民地数据;空间数据的数据逻辑一致性主要 是指数据定义的统一性,在同一个空间数据库中,数据的定义应该保持一致;空间数据位置 精度主要是指数据的地理位置精度,空间数据属性精度主要是指数据所载负的地理信息的正确性,比如,一条河流的名称是否正确、一个居民地的名称是否正确等等,空间数据时间精 度是数据本身所代表的时间信息的正确性,比如,50年代的湖泊数据与90年代的湖泊数据就 有很大的差别,关于数据的说明称为元数据,如:对于空间数据库的数据源的说明,什么种类的地图,线划图还是影像图等。由上述简单的描述就可以看出空间数据的质量控制是一件非常庞杂的工程,假设建成一个空间数据库需要5年,而其空间数据的质量控制就要在这5年 的过程中自始至终地进行,而且还要持续到数据的维护更新的全过程。因为没有质量作保证 ,所有的劳动都可能是白费。

空间数据索引

空间索引是对存储在介质上的数据位置信息的描述,用来提高系统对数据获取的效率。

空间索引的提出是由两方面决定的:其一是由于计算机的体系结构将存贮器分为内存、外存两种,访问这两种存储器一次所花费的时间一般为30~40ns,8~10ms,可以看出两者相差十 万倍以上,尽管现在有“内存数据库”的说法,但绝大多数数据是存储在外存磁盘上的,如果对磁盘上数据的位置不加以记录和组织,每查询一个数据项就要扫描整个数据文件,这种访问磁盘的代价就会严重影响系统的效率,因此系统的设计者必须将数据在磁盘上的位置加以记录和组织,通过在内存中的一些计算来取代对磁盘漫无目的的访问,才能提高系统的效率,尤其是GIS涉及的是各种海量的复杂数据,索引对于处理的效率是至关重要的。其二是GIS所表现的地理数据多维性使得传统的B树索引并不适用,因为B树所针对的字符、数字等传统数据类型是在一个良序集之中,即都是在一个维度上,集合中任给两个元素,都可以在这个维度上确定其关系只可能是大于、小于、等于三种,若对多个字段进行索引,必须指定各个字段的优先级形成一个组合字段,而地理数据的多维性,在任何方向上并不存在优先级问题,因此B树并不能对地理数据进行有效的索引,所以需要研究特殊的能适应多维特性 的空间索引方式。

1984年Guttman发表了《R树:一种空间查询的动态索引结构》,它是一种高度平衡的树,由中间节点和页节点组成,实际数据对象的最小外接矩形存储在页节点中,中间节点通过聚集其低层节点的外接矩形形成,包含所有这些外接矩形。其后,人们在此基础上针对不同 空间运算提出了不同改进,才形成了一个繁荣的索引树族,是目前流行的空间索引。

空间数据仓库

随着信息技术的飞速发展和企业界新需求的不断提出,以面向事务处理为主的空间数据库系统已不能满足需要,信息系统开始从管理转向决策处理,空间数据仓库就是为满足这种新的 需求而提出的空间信息集成方案,它有四个特点:

(1)主题与面向主题。与传统空间数据库面向应用进行数据组织的特点相对应,空间数据仓 库中的数据是面向主题进行数据组织的。它在较高层次上将企业信息系统中的数据进行综合、归类,并加以抽象地分析利用。

(2)集成的数据。空间数据仓库的数据是从原有的空间数据库数据中抽取来的。因此在数据 进入空间数据仓库之前,必然要经过统一与综合,这一步是空间数据仓库建设中最关键、最复杂的一步,所要完成的工作包括消除源数据中的不一致性和进行数据综合计算。

(3)数据是持久的。空间数据仓库中的数据主要供决策分析之用,所涉及的数据操作主要是 数据查询,一般情况下并不进行修改操作。空间数据仓库的数据反映的是一段相当长的时间内的数据内容,是不同时间的空间数据库快照的集合和基于这些快照进行统计、综合和重组 导出的数据,而不是联机处理的数据。空间数据库中进行联机处理的数据经过集成输入到空间数据仓库中,一旦空间数据仓库存放的数据已经超过空间数据仓库的数据存储期限,这些 数据将从空间数据仓库中删去。

(4)数据是随时间不断变化的。空间数据仓库的数据是随时间的变化不断变化的,它会不断 增加新的数据内容,不断删去旧的数据内容,不断对数据按时间段进行综合。

空间数据仓库用于支撑空间决策支持系统,它由四大部分组成:数据源、空间数据库系统、空间数据仓库信息存储系统、空间数据仓库分析工具。