空间数据网格概述与关键技术研究
数据网格的概念来自网格,它是网格技术在数据管理方面的应用和实现,即是为了建立网格环境下透明访问异构数据资源的新的体系结构。
http://www.gispark.com/html/jichu/2008/0323/2219.html
数据网格是一个用于大型科学数据集分布式管理与分析的体系结构。在高能物理、全球气候模拟、生物计算等许多科学研究和应用领域中,不仅需要大量的计算,而且需要处理PB级并且地理上广泛分布的数据。在这种情况下,人们通过开发专门的存储管理体系结构来对这些广域分布的数据进行管理和协同工作,即数据网格。在数据网格中,数据是分布的、异构的、海量的,因而如何有效地管理这些数据,使用户能够高效地发现和访问数据成了人们研究的焦点。 copyright gispark.com
空间数据网格是网格环境下面向空间数据共享与协同,构造一体化空间数据网格映象的技术体系,是空间信息网格(狭义)、空间知识网格和空间服务网格的基础,为其提供数据支持。其主要功能包括:负载调度和管理、数据管理、网格监控、构造层的管理和海量存贮管理等功能。
实现数据网格的关键技术包括元数据管理和信息服务、分布式数据访问及复制、高速数据传输、资源调度和安全技术等。 内容来
http://www.gispark.com/html/jichu/2008/0323/2220.html自GIS公园
元数据管理和信息服务
良好地表示、存储、访问和使用大量资源信息是空间数据网格运行的基本前提。在空间数据网格计算中,资源是分布的,资源及其提供者也是分布的,这些资源包括数据、计算机、设备、网络、外设、软件、服务、代码、人员等。元数据管理服务命名、描述、收集、组织和管理数据网格中的资源信息,这些信息就是用于描述资源、方法、数据集和用户的元数据。信息服务是元数据管理对外提供的基本服务。它实现新资源实体的注册和发布,支持资源相关性的发布,可以注册与已注册实体间的相互约束和相互联系信息。因此,在数据网格计算中,需要建立灵活的、可扩展的信息服务体系结构。这种体系结构应当保证资源信息提供者的广泛分布性和信息服务的分布特性,避免由于单个信息服务实体的失败导致其它资源信息服务不能正常提供服务。
元数据可以分为系统元数据、复制元数据和应用元数据。系统元数据记录数据网格自身的结构信息,诸如网络互联情况、存储系统的容量、计算机空闲情况、使用策略等。复制元数据记录与数据副本有关的信息,如文件与具体存储系统之间的映射信息。应用元数据是与具体应用相关的文件逻辑结构或语义信息,如数据的内容和结构、获取数据的必要条件等。为了实现命名、定位和访问的透明性,网格需要有效地管理数量繁多的名字和属性,以及它们之间的关系,需要一种统一的全局命名方式,需要管理数据集的定位信息,需要有效管理数据资源存储形式等相关信息。同时,也需要管理系统资源的安全、授权、访问控制等信息。
从层次上讲,元数据管理和服务系统由应用层、高层元数据服务层、核心元数据服务层和元数据存储层等四层架构组成。根据上述可以看出,空间数据网格元数据管理与信息服务系统承担着网格信息发布的任务,它负责搜集网格环境中资源提供者的相关信息并将其提供给应用程序。为提供更有效的服务,元数据管理与信息服务系统必须能对这些实时的动态信息进行有效组织,以便于系统对资源进行搜索、添加、删除等操作。 本文来GIS公园
网格中的所有元数据构成元数据目录,它采用统一的结构来描述元数据。无论使用何种结构,元数据目录应当满足两点:其一,它应该是一种层次和分布式目录结构系统,如LDAP;其二,它应当不破坏现有系统的元数据描述方法,并能与它们很好地交互、融合。 图 3‑8所示是一个简单结构的空间数据网格信息目录树。这个树形结构本身可以在一个LDAP服务器中,也可以分布在多个LDAP 服务器中。信息树中的每一个节点均是一个数据项,或是一个目录服务项。这些项包含了描述计算环境中真实或抽象对象的实际记录,如用户、计算机、网络性能、空间数据的描述参数等。所有这些信息均能为用户应用层及资源管理层提供检索查询服务。通过空间数据网格元数据管理与信息服务系统可以定位和查询资源的各种特性。
分布式数据访问及复制
分布式数据访问成了大多数网格系统的瓶颈(Joshy etal, 2005)。空间数据网格中的数据资源各种各样,表示、存储的形式也各不同。一些数据可能以文件形式存储;一些数据存储在数据库或数据仓库中;还有一些数据是由多个分布存储系统中的数据组成的。数据网格必须抽象各种数据存储系统,形成一个抽象模型,为不同的数据存储系统提供统一的数据访问接口。数据访问服务的作用就是将存储、检索数据集等高层用户的请求映射为异构分布式存储环境中的底层存储访问操作,实现广域范围内对数据有效的统一访问和管理。
空间数据网格的数据经常需要复制,复制本质上是对数据的缓存。虽然网络速度提高很快,但要达到高性能地频繁访问和处理大量远程数据仍然很困难。复制技术为用户应用提供一个能够快速访问和处理远程数据的局部缓冲数据拷贝,避免大量数据远程传输到应用端。复制管理应具有以下一些功能:创建一个完整的或部分的数据集拷贝;提供选择数据复制策略、复制方式和复制地点的能力;在复制目录中注册新的数据拷贝;允许用户和应用查询复制目录,以便找到某个文件或数据集已存在的数据拷贝;根据用户和应用的执行要求,以及存储、网络的性能预测,有方法和能力选择“最好”的数据副本进行访问和处理;数据复制之间的数据一致性和更新一直是分布式数据管理的难点,它与应用数据访问、产生、操作特性紧密相关。复制管理的几个功能模块应当采用分离设计方法,并可替换。同时,复制目录的结构必须灵活和可扩展,以免影响性能的发挥。
高速数据传输机制
空间数据网格计算涉及大量数据的移动、传输和复制,这就需要一种高效的数据传输机制的支持,这种传输机制要保证在广域网络的环境上可靠地传输数据。高速数据传输机制应支持以下几种功能:高速数据传输,要支持广泛接受的协议和广域网络上的数据传输,可以采用并行数据传输机制等;分块数据传输,数据网格支持各种数据存储形式,一些数据集的数据本身是广泛分布的,因此,需要支持多个分数据块的并发数据传输,汇总后形成一个完整的数据集;部分数据的传输,用户和应用经常需要数据集中的一部分数据;第三方数据传输,许多应用需要用到多个资源,必须提供一种机制,允许一个地点的用户和应用能够启动、监视和控制其他两个地点存储系统的数据传输,为应用使用多个地点的资源提供保障;可靠、可重启、断点续传,在广域网络环境下,数据传输故障和服务器故障经常发生,导致传输中断。因此,数据传输的错误恢复机制至关重要。
资源调度优化与远程执行
空间数据的分布具有多域性,资源分布十分广范,因此,在构建空间数据网格时,资源的调度优化和服务执行是一个关键技术问题,主要包括请求的调度优化、资源的调度优化和资源的服务执行。请求的调度优化要对用户资源请求与可用资源进行匹配,当众多用户和应用请求同时到达,就必须统筹优化安排多个请求的资源需求。远程执行服务机制保证多个地点的系统能够远程启动执行,能够监控、收集和查询状态信息,控制地理上分布的多个系统的任务执行过程。
在空间数据网格中,由于数据的复制和缓冲导致了数据网格特有的安全性问题:一个站点缓冲了位于另一个地点系统中的数据,两个系统之间的安全保护机制、措施和安全级别不同,如何达到数据拥有者所要求的数据保护安全级别和策略是一个重要问题。空间数据网格安全机制将提供基本的安全保护验证机制,以验证合法的用户和资源,并为其它安全服务提供接口,允许用户选择不同的安全策略、安全级别和加密方法,提供底层基础的安全设施,这是网格计算的要求和特点。
对于网格应用的安全基于安全认证、安全身份相互鉴别、通信加密、私钥保护以及委托与单点登录等,网格中只要一次登录就可访问所有授权的资源,对每个请求,要验证请求者的数字签名。