高维数据聚类方法
1 一般数据聚类方法
聚类是一个无监督的分类,它没有任何先验知识可用.
典型的聚类过程主要包括数据(或称之为样本或模式)准备、特征选择和特征提取、接近度计算、聚类(或分组)、对聚类结果进行有效性评估等步骤.
聚类过程:
1) 数据准备:包括特征标准化和降维.
2) 特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中.
3) 特征提取:通过对所选择的特征进行转换形成新的突出特征.
4) 聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量;而后执行聚类或分组.
5) 聚类结果评估:是指对聚类结果进行评估.评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估.
聚类大致分为层次化聚类算法,划分式聚类算法,基于密度和网格的聚类算法,基于模型的聚类算法,等。
2 现有的高维聚类方法
对于数据来源的丰富多样,图文声像甚至视频都逐渐成为聚类处理的目标对象,这些特殊对象的属性信息往往要哦才能够数十个甚至百个方面来表现,其每一个属性都成为数据对象的一个维,对高维数据的聚类分析,已成为众多研究领域方向之一,如多点地质统计统计中对模式的聚类等。
在与高维数据相关的应用领域,纬度灾难(curse ofdimensionality)是一个非常普遍的现象,它指数据分析中遇到的由变量过多引起的一系列问题。
数据挖掘领域对聚类算法的研究已经取得了一定的成果,但很多传统的聚类算法在对一般的低维数据进行聚类处理是,通常能获得较为准确的结果,而对高维数据,由于纬度灾难引起的影响,若采用这些传统的算法进行聚类,往往得不到所期望的结果。为了满足不同领域中众多用户的需求,研究者们提出了很多针对高维数据的聚类方法,主要包括基于降维的聚类,基于超图的聚类,子空间聚类和联合聚类。
2.1 降维聚类
直观地讲,将维就是通过把数据点映射到更低维的空间上寻求数据的紧凑的一种技术,这种低空间的紧凑表示有利于对数据的进一步处理。
降维作为目前很多研究领域的重要研究分支之一,其方法本身就多种多样,根据降维方法的不同,形成了很多基于降维的聚类方法,如Kohonen自组织特征映射(SOFM),主成分分析(PCA)、多维缩放(MDS),以及分形降维等。
无论采用什么样的降维方法对高维苏汇聚进行聚类处理,其基本目的都是先根据相应的方法寻求高维数据等价的低维表示,然后再利用已有的传统聚类方法都降维后的数据进行聚类处理,即用数据在低位空间中的聚类结果来表示高维数据的聚类特征。不同的聚类方法,它们寻求高维数据的低维表示的方式不同,降维之后的数据与原始数据的近似程度也不同,从而它们的聚类性能也不同。
2.2 基于超图的聚类
超图是对常规图的扩展,图中的每条边可以连接多个顶点,成为超边。基于超图的聚类方法把高维数据的关系映射到一个超图上,图中的每一条变表达这些数据的关系,边上的权值则表示相应关系到密切程度。在此基础上,基于超图的聚类方法实际上就是寻找超图顶点的一个划分,并使得处于同一个划分中的数据尽可能地相关。
基于超图划分的聚类步骤可简单地描述如下:
a)通过超图定义一个点(作为图的顶点)与其他若干点相
连的条件;
b)定义图中连接权重的度量;
c)根据一定的图划分算法,寻找权重最小的超边并从中断开连接,从而将超图划分为两个部分,每个部分作为一个簇(类);
d)重复上述划分,直至划分出的簇达到某个特定的值,或所产生的新的划分质量低于预设的阈值。
总的来说,基于超图划分的聚类算法的关键思想在于,把高维数据空间中的数据处理问题转换为图划分问题,通过构造特定超图的最小生成树来寻求高维数据的聚类。该方法最大的有点在于聚类的过程不同显示地计算高维数据之间的相似度,因此算法的时间复杂度仅为O(ndk),其中n为数据集的规模,d为数据点的纬度,k为聚类的个数。针对不同的应用领域和应用背景,研究者们也提出了很多基于超图的聚类方法。
2.3 子空间聚类
子空间聚类又称特征选择,它把原始数据空间划分为不同的子空间,只在那些相关的子空间上考察聚类的存在。这些算法一般使用贪心策略等搜索方法搜索不同的特征子空间,然后使用一些标准来评价这些子空间,从而找到所需的簇。
典型的子空间聚类算法有CLIQUE、ENCLUS和MAFIA等。该类算法都使用Apriori策略来查找和合并某度量大于给定阈值的网格,产生候选子空间,并将这些候选子空间按其覆盖即子空间中点数量的大小排序;随后利用最小描述长度准则将规模较低的子空间剪枝。
3 现有典型高维聚类算法性能分析
基于降维的高维聚类方法是对高维数据进行聚类处理的最为直观的方法之一,其优点是易于理解、实现简单,但其缺陷也是显而易见的:首先,数据集中噪声数据的存在是影响降维聚类效果的关键因素。在通过降维将原始高维数据映射到低维空间的过程中,同时也会缩小噪声数据与“干净”数据之间的距离,从而不可避免地降低聚类的质量。而在很多应用领域中,通常很难在预处理过程清除噪声数据的影响。
此外,基于降维的聚类从根本上说都是以数据之间的距离或相似度评价为聚类依据,当数据的维数不是很高时,这些方法效果较好,但当数据维度增高,聚类处理将很难达到预期的效果。原因在于:a)在一个很高维的空间中定义一个距离度量本身就是一个很困难的事情;b)基于距离的方法通常需要计算各个聚类之间的距离均值,当数据的维度很高时,不同聚类之间的距离差异将会变得很小。
基于超图的聚类方法的优点主要体现在两个方面:a)通过该方法,可以在聚类的过程中回避对高维数据之间相似度的计算,从而减小了维度灾难对高维聚类的影响;b)利用该方法还可以根据特定用户或领域的需求来控制聚类的质量,原因在于,利用Apriori算法中最小支持度的不同层次,超图模型所表达的数据间的关系可以进行适当的调整,较高的支持度值对应包含数据点较少的更高质量的聚类,较低的支持度值则对应包含数据点较多的粗糙的聚类。
但是不容忽视的是,该算法聚类效果的好坏与相应参数的选取有很大的关系。 首先,在寻找频繁集时,支持度层次的确定与具体的应用领域密切相关;其次,对于连续变量,必须要对其离散化之后才能应用该算法进行处理。而对连续属性的离散化处理必然会导致数据间的某些关系的丢失,从而使得聚类结果与实际情况会偏差很大
子空间聚类从某种程度上来讲与基于降维的聚类有些类似,但后者是通过直接的降维来对高维数据进行预处理,即在降维之后的某一个特定的低维空间中进行聚类处理;而前者是把高维数据划分成若干不同的子空间,再根据需要在不同的子空间中寻求数据的聚类。利用子空间聚类的思想,可以从多个角度、综合考虑多方面的属性来寻求数据的聚类。 但是在这类算法中,子空间的划分和选取也是一个值得深入研究的重要问题。子空间划分太多,不仅计算复杂度会很大,聚类的结果也会过于繁杂;子空间划分太粗糙,则不能很好地避免维度灾难
对聚类的影响。
4 超图聚类算法
在过去的几十年里,图论已被证明是解决几何、数论、运筹学和优化等领域中重要组合问题非常有用的工具。为了解决更多的组合问题,把图的概念进行推广是非常自然的事情。超图概念是C.Berge与1970年提出的。由于超图理论比较抽象,研究者们很不容易入门,超图理论的发展一直比较缓慢。近年来,随着计算机的普及和集成电路规模的增大,超图理论及其应用的研究越来越为人们所重视。
一个超图H=(V,E)包含一个顶点集V和一个超边集E。把数据项建模成一个超图的关键问题是确定能被组成超边的相关项和每个超边的权重。
基于超图模式高维空间数据聚类的主要思想是把一个求解高维空间数据聚类问题转换为一个超图分割训优问题。
参考文献:
刘丽娜. 一种基于超图模式的数据聚类方法[J]. 石家庄铁路职业技术学院学报, 2005, 4(4):67-71.
贺玲, 蔡益朝, 杨征. 高维数据聚类方法综述[J].计算机应用研究, 2010,27(1):23-26.
欢迎长按关注“油藏地质与开发”微信公众号