从空间数据集发现一种共置模式:一种通用方法
从空间数据集发现一种共置模式:一种通用方法
标题:Discovering Colocation Patterns from Spatial Data Sets: A General Approach
摘要
给定布尔特征空间的集合,共置模式发现过程中将找到频繁一起出现的特征的子集。
空间共置规则与关联规则问题的不同。
本文的贡献:
1) In this paper, we provide a transaction-free approach to mine colocation patterns by using the concept of proximity neighborhood.(邻近关系)
2)提出了新的兴趣度量点
A new interest measure, a participation index, is also proposed for spatial colocation patterns.
3)采用新的兴趣度量点的两点原因:
此度量与cross-K函数密切相关,后者通常用作对空间特征对之间交互作用的统计度量;
具有反单调特性,可用于提高计算效率
4)设计新的算法来发现Colocation Patterns。该算法包括一种新颖的multiresolution pruning 多分辨率修剪技术。最后,提供实验结果以显示算法的强度以及与性能调优有关的设计决策。
实验结论
- 对Colocation 问题进行formalized规范化处理;经典关联规则问题和共置规则问题之间的异同;在(implicit, overlapping and potentially infinite transactions)空间数据集中用传统度量(支持度和置信度)的困难
- 我们提出了用户指定的邻近邻域的概念来代替事务来明确groups of ites,和定义的兴趣度量,这些度量在面对潜在无限重叠的邻近邻域下会很健壮.
- A key observation(关键观察是) was that some properties of proximity neighborhood cliques (邻近集的一些属性必须符合)obey the downward inclusion property necessary for a priori-based(基于先验原理) rule mining.(基于先验规则的挖掘所需的向下包含属性)。
表实例的基数不服从该属性,但是提议的参与度却服从该属性,从而允许交互式修剪。
参与度具有作为cross-K函数上限的空间统计解释,cross-K函数是经典的二进制空间特征关联的空间统计度量。相反,相关方法[12],[15]并未对其结果提供空间统计解释。
- 实验部分:提出Colocation Miner,一种用于挖掘共置模式的算法,并对其准确性,完整性和计算成本(准确度怎么样,计算成本具体怎么样)进行了分析。实验表明在生成2位时,几何策略比组合策略要好,超过2个会变慢。因此采用了混合策略()
当特征的位置趋于在空间上聚类时,由于空间自相关,这对于空间数据通常是正确的,使用多分辨率滤波器可以显着降低共置挖掘器的计算成本。
- 一些问题:
1)邻居关系的选择影响性能。
2)实验数据类型。文中只考虑了布尔类型,而现实中数据类型可能是分类的和连续的
3)使用强大自相关性的真实数据来考察多分辨率过滤对所提出算法总体性能的影响
4)如果特征的位置随时间变化,那么会发现时空关联模式。