我的github

第一章 绪论

数据量大(Volume)、更新速度快(Velocity)、数据类型多(Variety)、价值密度低(Value)等"4V"特性的大规模空间数据的产生,标志着空间大数据时代的到来。

数据,常被视之为地理信息系统(GIS)的"血液"。空间大数据的兴起,也带来了传统GIS行业的变革。目前,在遥感大数据领域,己经初步形成了基于云存储、离性能计算等集遥感影像数据"采集、存储、组织、分析、可视化、应用"为一体的系统化平台。

但在矢量大数据方面的研究还有待提髙。一方面,由于大规模矢量数据往往涉及到国家经济、国防等基础设施建设特殊因素,导致针对矢量大数据共享困难、应用研巧相对较少;另一方面,基于现有的GIS商业化空间数据管理平台对矢量大数据的管理能力也几近极限,无法满足全国行业应用的需求。因此,本文研究是在"空间大数据时代"的背景下,开展针对海量矢量大数据存储、管理、可视化、应用等关键技术的难题攻关,不仅有利于促进我国空间大数据软件产品的发展,同时也具有重要的理论意义。因此,基于大数据主流技术Hadoop平台,提髙大规模矢量数据商效管理为目的,研究矢量大数据的云存储模型、分布式空间索引及矢量数据并行转换、空间并行查询、金字塔模型并行构建等关键技术问题,解决大规模矢量数据的管理需求,提离数据的应用效益,为提升我国±地信息系统的服务保障能力和国家战略实施提供强有力的科技支撑,本文研究具有重要应用价值。

1.2 国内外研究现状与分析

从桌面GIS系统(20世纪60年代)至网络GIS(20世纪80年代),从分布式GIS(20世纪90年代)到云GIS(21世纪10年代),我们不难发现,GIS的发展深受计算机技术发展的影响,同时也滞后于计算机技术的发展。在大数据时代,我们不仅要通过利用云计算、物联网等技术构建下一代空间信息基础设施的建设,同时也需要重视空间分析、空间建模和空间优化等基本理论方法,需要坚持GIS本身的空间哲学和空间思维。

 

数字地球 数字城市

 

将GIS大数据概述为五类,即遥感大数据、基础测绘大数据、位置大数据、社交网络大数据和物联网大数据。通常情况下各大类之间也会产生一定的交集。

1)遥感大数据随着遥感技术的发展,遥感数据多样化,同时在空间、时间、光谱L义及辖射等方面的分辨率都在不断提高,不同遥感平台包括航天、航空W及临近空间等所获取的。

2)基础测绘大数据口WS]:—般包括地理国情数据、行业地理数据、专题测绘数据等。如4D(DLG、DRG、DOM、DEM)数字产品,国±行业的±地利用类型数据,还有交通路网数据、城市规划水利等行业生成的国家基础测绘数据。近年来,随着新型测绘装各技术的提升加速测绘大数据时代的到来。如点云PS]、移动测绘、激光雷达测量等,能够迅速高效获取测量区域的空间分布数据

3)位置大数据通常情况下含有空间位置和时间标识的地理和人类社会信息数据我们称之为位置数据。位置大数据主要是GPS、北斗等的定位数据,智能手机产生的位置数据,外业采集的位置数据WL42]、交通轨迹数据[心等。位置大数据己经成为当前用来感知人类社会群体活动规律的重要战略资源[391。

4)社交媒体大数据[444^:带有空间位置的互联网数据,包括用户的网页点击数据,社交媒体产的数据等,如QQ、徴信、新浪微博、Facebook、Twitter等社交软件所产生的大量地理标签数据。目前,社交媒体数据己经在网络舆情、自然灾害监测、环境执法等多个领域发挥重要的作用

5)物联网大数据各类传感器产生的監控数据,包括环保、气象、水位、管线等的监测数据W及移动手机、可穿戴设备、智能家居等位置感知数据。相比传统的互联网,物联网数据的生成频率更高、更加多样化;同时,物联网直接与真实物理世界相关联,对数据的传输速率要求也高,数据量也大。目前,物联网大数据在农业种桓、智能家居、智慧城市、智慧物流等多个应用领域有所建树

(3)面临的机巧与挑战

一方面,W物联网、云计算为助推的大数据时代,使得GIS具有了新的时代特性[19],如无所不在、多维动态、互联网+网络化、全自动与实时化、从感知到认知、众包与自发地理信息和面向服务等,新的时代特性也为GIS注入了新的活力。另一方面,大数据时代为GIS提供了丰富的数据资源的同时,也出现了大量的数据存储、管理、可视化等云计算平台,如Hadoop、MongoDB、Spark、Hbase、陆ve集送些基于分布式存储和并行计算的大数据技术已经成为切S大数据研巧的热点

1.2.2 矢量大数据存储

空间数据库是管理矢量数据的有效手段,也甚矢量数据查询、分析和应用的基拙。近半个世纪W来,空间数据库管理技术主要经历了四个阶段的演变["],即文件系统(20世纪70年代)、文件关系混合系统(20世纪80年代)、空间数据库引擎(20世纪卵年代)和面向对象关系型的空间数据库管理系统(21世纪)。伴随每次空间数据库管理方式的改变,GIS软件的体系结构也发生着革命巧的变化。如今,在大数据时代,随着计算机技术的发展,在空间数据库方面出现了新的研巧成果。目前,矢量大数据的存储和管理方式主要采用W下H种,一是基于支持分布式扩展的关系型数据库进行存储;二是基于非关系型NoSQL数据库进行存储;H是基于分布式文件系统进行存储。

(1)支持分布式扩展的关系型数据库

基于关系型空间数据库,如OracleSpatial、PostGIS等,进行分布式矢量数据的存储和管理一直是分布式空间数据库研究的热点,长期的研巧更多地侧重于分布式空间数据库引擎的设计与实现【52-55],即通过研发关系型空间数据的存储、访问、检索等基本操作,完成分布式环境下数据的访问和处理功能,提高矢量数据的存取和管理效率。

(2)非关系型NoSQL数据库

 NoSQL,即NotOnlySQL,泛指非关系型数据库。目前,主流的NoSQL数据库包括基于文档存储方式的MongoDB;基于列存储的BigTable、Hbase;基于键/值(Key/Value)对进行存储的Redis等。

 

第二章矢量大数据云存储模型研究

2.1 引言

空间数据模型是对现实世界的简化表达IIW,常见的空间数据模型主要包括基于对象(要素)(Feature)的模型、网络(Netwo皮)模型W及场(Field)模型UW。其中,基于对象的模型,在表现层次中也被称之为空间矢量数据模型,主要研究离散的空间对象;场模型,也被称之为空间栅格数据模型【117),主要研巧连续变化的空间对象;而空间网络模型则强调空间对象之间的几何关系。不同的空间数据模型代表着不同的空间数据存储和表达方式,从而也带来了不同的空间数据处理和分析方式【13。矢量数据通常由空间和属性两部分组成,其中,空间数据用来描述空间要素的位畳;而属性数据则用来描述空间要素的特征。两者之间的对应方式的不同也决定着矢量数据不同的数据结构和存储方式。

与传统关系型数据库存储方式不同,5环境下分布式存储环境中每个节点的存储空间是有限的,随着数据量的增加,大数据集需要进行分割存储在多个集群节点上,在这种情况下尽量要求单个数据对象之间没有其他关联,即相对独立。为了满足云环境对矢量数据模型存储和计算的支持,矢量数据云存储模型不仅需要充分考虑现有矢量数据模型的优势,同时也要兼顾云存储和计算模式的输入输出(I/O)需求。本文采用Hadoop云计算框架来管理矢量大数据,主要考虑分布式存储HDFS和并行编程模式MapReduce两个方面。为了同时满足矢量数据存储和数据处理的需求,本章节在研究矢量数据模型和Hadoop云计算环境的基础上,结合OGC(OpenGISConsortium)中现有矢量数据标准,提出了基于Key-Value的云存储模型GeoCSV数据模型,来进行矢量大数据的分布式存储。

2.2 矢量数据模型

在矢量数据模型中,空间要素被用点、线、面等几何对象来表示。与栅格数据模型相比,矢量数据模型具有数据结构复杂、精度高、数据量小W及显示质量好等优点tw。矢量数据通常由空间和属性两部分组成,其中,空间数据描述空间要素的位置;而属性数据描述空间要素的特征。按照空间数据和属性数据的存储方式,矢量数据模型又可分为地理关系矢量数据模型和基于对象的矢量数据模型。

2.2.1 地理关系数据模型

如图2-1所示,在地理关系矢量数据模型中,空间部分和属性部分分开进行存储,即采用图形文件存储空间数据,采用关系数据库来存储属性数据,两者之间通过唯一标识码(阳)进行关联和衔接。在地理关系数据模型中,空间和属性两部分必须同步才能进行相关的査询、分析和数据显示等空间操作。根据是否包含拓扑关系,地理关系数据模型又被分为两种数据结构,即巧化数据结构和非拓扑数据结构。其中,采用巧扑数据结构的矢量数据类型如ESRI的Coverage;而采用非巧扑结构的矢量数据类型如Shapefiie文件。

(1)拓扑数据结构

拓扑数据结构是一种具有拓扑关系的矢量数据结构,一般包括对偶独立地图编码法(Dual Independent MapEncoding,DIME)、多进形转换器(Polygon-Converter, POLYVRT)、地理编码和参照系统的拓扑集成(Topologically Integrated Geographic Encoding and Referencing, TIGER) 等。在GIS中,巧淋关系主要是指空问对象(要素)之间的方位关系nw。采用巧扑数据结构的矢量数据,一方面可W确保数据的质量;另一方面通过拓扑关系可W强化空间分析功能[w。 

2.2.2 基于对象的数据模型

2.3 Hadoop云计算环境

2.3.1 HDFS分布式文件系统

2.3.2 MapReduce并行计算模型

 

posted on 2019-06-08 19:47  XiaoNiuFeiTian  阅读(472)  评论(0编辑  收藏  举报