★P〓P★的随笔

纸上得来终觉浅,绝知此事要躬行。

【转载】主要空间数据挖掘方法

主要空间数据挖掘方法


Source: http://jerry429.bokee.com/2993629.html                                     

张新长 马林兵等,《地理信息系统数据库》[M],科学出版社,2005年2月 第二章第二节
 
空间数据
 
空间数据挖掘是多学科和多种技术交叉综合的新领域,其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。下面介绍近年来出现的主要空间数据挖掘方法。
 
1、空间分析方法
  利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信息和知识。常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、距离分析、叠置分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策知识
 
2、统计分析方法
  统计分析一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础,拥有大量成熟的算法。统计方法难以处理字符型数据,需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。
 
3、归纳学习方法
  归纳学习方法是从大量的经验数据中归纳制取一般的规则和模式,其大部分算法来源于机器学习领域,归纳学习的算法很多,如Michaski等的 AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS,Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的C5.0决策树算法。
 
4、聚类与分类方法
  聚类和分类方法按一定的距离或相似性系统将数据分成一系列相互区分的组。常用的经典聚类方法有Kmean,Kmeriod,ISO DATA等。分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小,类间差别最大。分类和聚类的区别在于分类事先知道类别数和种类的典型特征,而聚类则事先不知道。
 
5、探测性的数据分析方法

  李德仁、邸凯昌等提出了探测性的数据分析(简称EDA)。EDA采用动态统计图形和动态链接窗口技术将数据及统计特征显示出来,可发现数据中非直观的数据特征及异常数据 EDA与空间分析相结合,构成探测性空间分析(exploratory spatial analysis,简称ESA)。EDA和ESA技术在数据挖掘中用于选取与问题领域相关的数据子集,并可初步发现隐含在数据中的某些特征和规律。

 
6、粗集方法
  粗集理论是波兰华沙大学Z.Pawlak教授在1982年提出的一种智能数据决策分析工具,被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。粗集理论为空间数据的属性分析和知识发现开辟了一条新途径,可用于GIS数据库属性表的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成等。粗集理论与其他知识发现算法相结合可以在GIS数据库中数据不确定的情况下获取多种知识。
 
7、空间特征和趋势探测方法
  这是Ester等人在第4届KDD国际研讨会(1998)上提出的基于领域图(neighborhoodgraphs)和邻域路径 (neighborhoodpath)概念的挖掘算法。Ester等将一个空间特征定义为GIS数据库中具有空间/非空间性质的目标对象集,并以非空间属性值出现的相对频率和不同空间对象出现的相对频率(目标对象集相对于整个数据库)作为感兴趣的性质,从空间目标集合经过它的相邻扩展后的一个开始点出发,发现一个或多个非空间性质的变化规律。这种算法的效率在很大程度上取决于其处理相邻关系的能力。
 
8、数字地图图像分析和模式识别方法

  GIS数据库(数据仓库)中含有大量的图形图像数据,一些图像分析和模式识别方法可直接用于挖掘数据和发现知识,或作为其他挖掘方法的预处理方法。用于图像分析和模式识别的方法主要有:决策树(desicion tree)方法、神经元网络(artificial neural net work)方法、数学形态学方法、图论方法

 
9、可视化方法
  可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例如把数据库中的多维数据变成多种图形,这对提示数据的状况、内在本 质及规律性起到了很强的作用。当显示SDM发现的结果时,将地图同时显示作为背景。一方面能够显示其知识特征的分布规律;另一方面也可对挖掘出的结果进行 可视化解释,从而达到最佳的分析效果。可视化技术使用户看到数据处理的全过程、监测并控制数据分析过程。为了发现某类知识,常要综合运用这些方法。数据挖 掘方法还要与常规的数据库技术充分结合,数据挖掘利用的技术越多,得出的结果精确性就越高。
 
空间数据库中的知识
 

基于GIS与遥感应用,一般认为(Li D R. et al., 1994,1997; 邸凯昌等,1996,1997;Han J., 1996; Koperski K. et al, 1996), 可以从空间数据库中发现的知识有以下8种:

 
  (1)普遍的几何知识(general geometric knowledge)
所谓普遍的几何知识,是指关于目标的数量、大小、形态特征等的普遍性知识,如点状目标的位置、大小等,线状目标的长度、大小和方向等,面状目标的周长、面积、几何中心等。可以通过计算或统计得出GIS中空间目标某种几何特征量的最小值、最大值、均值、方差、中数等,还可以统计出有关特征量的直方图等。
 
  (2)空间分布规律(spatial distribution regularities)
空间分布规律是指目标在地理空间中垂直向、水平向以及垂直与水平联合的分布规律。垂 直分布是指空间目标沿地理调和的分布,如植被覆盖与生物多样性的海拔变化,作物生长的坡度变化等;水平分布是指地物沿地理区域的平面分布,如水稻亩产的区 域分异性,基础设施的城乡差异等;垂直与水平的联合分布是指目标的高程和区域方面的同时变化,如风土人情的流域差异性、气候特征的地理分异性等。
 
  (3)空间关联规则(spatial association rules)
空间关联规则是指空间目标的相邻、相连、共生、包含等关系,如道路与河流的相连,国家与国家的相邻等。
 
  (4)空间分类(聚类)规则(spatial classification/clustering rules)
  空间分类规则是根据目标的空间或非空间特征进行类别划分的规则;而空间聚类规则是根据目标的聚散程度进行类别划分的规则,可用于GIS的空间概括和空间综合。空间分类和空间的共同之处是:都是对目标空间的再划分,划分的标准是类内差别最小而类间差别最大;不同之处是:分类是有导师的 (supervised)而聚类是无导师的,即分类是事先知道类别数和各类的典型特征,而聚类则事先不知道。
以遥感图像分析为例,一般性遥感图像处理是针对一幅图像或一个试验区的多幅图像进行处理和分析,找出某种结论性的东西;而遥感数据挖掘则强调对大量数据的处理、分析和对比,进而找出共性和特性,总结出规律和规则,而这些规律和规则在后续的图像分析中具有指导作用。
 
  (5)空间特征规则(spatial characteristic rules)
空间特征规则是指某类或某几类空间目标的几何与属性的普遍特征,是对共性的描述。比如:“高速公路一般都比较直”、“高速公路一般6车道”是两条描述高速公路普遍特征的空间特征规则。普遍的几何知识属于空间特征规则的一类,将它分离出来单独作为一类知识是由于它在遥感影像解译中有十分重要的作用。
 
  (6)空间区分规则(spatial discriminate rules)
空间区分规则特征是指两类或多类目标间几何或属性的不同特征,是对个性的描述。“高速公路一般比较直,高等级公路一般稍弯一些”、“高速公路一般6车道,高等级公路一般4车道”是两条描绘高速公路与高等级公路特征差别的区分规则。它不同于空间分类规则;分类规则是对空间目标进行明确分类,强调的是分类精度,为了保持分类精度,一般在较低的层次进行分类;而区分规则是对已知类别对象的对比,一般是比较高层次上的描述。
 
  (7)空间演化规则(spatial evolution rules)
空间演化规则是指空间目标的几何、属性特征随时间而变化的规律。这一规律的发现必须基于时空数据库或同一区域的多个时相的数据。
 
  (8)面向对象的知识(object oriented knowledge)
  它是关于某类复杂对象的子类构成及其普遍特征的知识。比如对于一个小区对象,由住宅楼、服务楼、幼儿园、绿地、健身区等子类对象构成,相互之间的空间穿插和均衡布局等构成该小区的总体特征。

#################################################################################################

空间数据挖掘:变数据为知识


中国科学院计算技术研究所 刘毅勇 何雄 李金山 廖浩均 孟亮 邓柱中
 
空间数据挖掘是指从空间数据库中抽取没有清楚表现出来的隐含的知识和空间关系,并发现其中有用的特征和模式的理论、方法和技术。空间数据挖掘和知识发现的过程大致可分为以下多个步骤:数据准备、数据选择、数据预处理、数据缩减或者数据变换、确定数据挖掘目标、确定知识发现算法、数据挖掘、模式解释、知识评价等,而数据挖掘只是其中的一个关键步骤。但是为了简便,人们常常用空间数据挖掘来代替空间数据挖掘和知识发现。
 
常用的空间数据挖掘方法主要有:
 
1.       基于概率论的方法。
这是一种通过计算不确定性属性的概率来挖掘空间知识的方法,所发现的知识通常被表示成给定条件下某一假设为真的条件概率。在用误差矩阵描述遥感分类结果的不确定性时,可以用这种条件概率作为背景知识来表示不确定性的置信度。
 
2.       空间分析方法。
指采用综合属性数据分析、拓扑分析、缓冲区分析、密度分析、距离分析、叠置分析、网络分析、地形分析、趋势面分析、预测分析等在内 的分析模型和方法,用以发现目标在空间上的相连、相邻和共生等关联规则,或挖掘出目标之间的最短路径、最优路径等知识。目前常用的空间分析方法包括探测性 的数据分析、空间相邻关系挖掘算法、探测性空间分析方法、探测性归纳学习方法、图像分析方法等。
 
3.       统计分析方法。
指利用空间对象的有限信息和/或不确定性信息进行统计分析,进而评估、预测空间对象属性的特征、统计规律等知识的方法。它主要运用空间自协方差结构、变异函数或与其相关的自协变量或局部变量值的相似程度实现包含不确定性的空间数据挖掘。
 
4.       归纳学习方法。

即在一定的知识背景下,对数据进行概括和综合,在空间数据库(数据仓库)中搜索和挖掘一般的规则和模式的方法。归纳学习的算法很多,如由Quinlan提出的著名的C5.0决策树算法、Han Jiawei教授等提出的面向属性的归纳方法、裴健等人提出的基于空间属性的归纳方法等。

 
5.       空间关联规则挖掘方法。
即在空间数据库(数据仓库)中搜索和挖掘空间对象(及其属性)之间的关联关系的算法。最著名的关联规则挖掘算法是Agrawal提出的Apriori算法;此外还有程继华等提出的多层次关联规则的挖掘算法、许龙飞等提出的广义关联规则模型挖掘方法等。
 
6.       聚类分析方法。
即根据实体的特征对其进行聚类或分类,进而发现数据集的整个空间分布规律和典型模式的方法。常用的聚类方法有K-mean, K-medoids方法、Ester等提出的基于R—树的数据聚焦法及发现聚合亲近关系和公共特征的算法、周成虎等提出的基于信息熵的时空数据分割聚类模 型等。
 
7.       神经网络方法。
即通过大量神经元构成的网络来实现自适应非线性动态系统,并使其具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能的方法;在空间数据挖掘中可用来进行分类和聚类知识以及特征的挖掘。
 
8.       决策树方法。
即根据不同的特征,以树型结构表示分类或决策集合,进而产生规则和发现规律的方法。采用决策树方法进行空间数据挖掘的基本步骤如 下:首先利用训练空间实体集生成测试函数;其次根据不同取值建立决策树的分支,并在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行 剪枝处理,把决策树转化为据以对新实体进行分类的规则。
 
9.       粗集理论。
一种由上近似集和下近似集来构成粗集,进而以此为基础来处理不精确、不确定和不完备信息的智能数据决策分析工具,较适于基于属性不确定性的空间数据挖掘。
 
10. 基于模糊集合论的方法。
这是一系列利用模糊集合理论描述带有不确定性的研究对象,对实际问题进行分析和处理的方法。基于模糊集合论的方法在遥感图像的模糊分类、GIS模糊查询、空间数据不确定性表达和处理等方面得到了广泛应用。
 
11. 空间特征和趋势探侧方法。
这是一种基于邻域图和邻域路径概念的空间数据挖掘算法,它通过不同类型属性或对象出现的相对频率的差异来提取空间规则。
 
12. 基于云理论的方法。
云理论是一种分析不确定信息的新理论,由云模型、不确定性推理和云变换三部分构成。基于云理论的空间数据挖掘方法把定性分析和定量计算结合起来,处理空间对象中融随机性和模糊性为一体的不确定性属性;可用于空间关联规则的挖掘、空间数据库的不确定性查询等。
 
13. 基于证据理论的方法。
证据理论是一种通过可信度函数(度量已有证据对假设支持的最低程度)和可能函数(衡量根据已有证据不能否定假设的最高程度)来处理不确定性信息的理论,可用于具有不确定属性的空间数据挖掘。
 
14. 遗传算法。
这是一种模拟生物进化过程的算法,可对问题的解空间进行高效并行的全局搜索,能在搜索过程中自动获取和积累有关搜索空间的知识,并 可通过自适应机制控制搜索过程以求得最优解。空间数据挖掘中的许多问题,如分类、聚类、预测等知识的获取,均可以用遗传算法来求解。这种方法曾被应用于遥 感影像数据中的特征发现。
 
15. 数据可视化方法。
这是一种通过可视化技术将空间数据显示出来,帮助人们利用视觉分析来寻找数据中的结构、特征、模式、趋势、异常现象或相关关系等空间知识的方法。为了确保这种方法行之有效,必须构建功能强大的可视化工具和辅助分析工具。
 
16. 计算几何方法。
这是一种利用计算机程序来计算平面点集的Voronoi图,进而发现空间知识的方法。利用Voronoi图可以解决空间拓扑关系、数据的多尺度表达、自动综合、空间聚类、空间目标的势力范围、公共设施的选址、确定最短路径等问题。
 
17. 空间在线数据挖掘。
这是一种基于网络的验证型空间来进行数据挖掘和分析的工具。它以多维视图为基础,强调执行效率和对用户命令的及时响应,一般以空间 数据仓库为直接数据源。这种方法通过数据分析与报表模块的查询和分析工具(如OLAP、决策分析、数据挖掘等)完成对信息和知识的提取,以满足决策的需 要。
 

posted on 2008-08-02 18:45  itolssy  阅读(965)  评论(0编辑  收藏  举报

导航