【聚类】简述高维数据聚类

　　Concept：

　　聚类其实就是讲一个对象的集合分为由相似对象组成的多个类的过程。聚类与分类的区别在于，聚类划分的类是不确定的，需要自身进行相似性比较，并且确定划分的类。

　　一般而言，对于聚类算法的要求还是比较高的。

　　具体的可以参看百度百科：http://baike.baidu.com/view/31801.htm

　　而对于高维数据聚类的聚类算法主要有两种：子空间聚类（Subspace clustering）和基于相似性度量的聚类（Similarity-Based Clustering）。

　　高维数据聚类的难点在于：

　　1、适用于普通集合的聚类算法，在高维数据集合中效率极低

　　2、由于高维空间的稀疏性以及最近邻特性，高维的空间中基本不存在数据簇。

　　Subspace clustering：

　　选取与给定簇密切相关的维，然后在对应的子空间进行聚类。传统的特征选择算法可以用来确定相关维。

　　特征选择算法综述：http://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html

　　不同的簇对应不同的子空间，并且每个子空间维数不同，因此也不可能一个子空间就可以发现所有的簇。为了解决这个问题，对全空间聚类进行了推广，称为子空间聚类（投影聚类）。

　　定义：考虑在某个多维空间中的一个数据集，一个投影聚类就是一个数据点的子集C以及一个维的子集D，使得C中的点在D中很紧密地聚集在一起

　　算法：重叠划分子空间聚类算法、非重叠划分子空间聚类、最优投影聚类算法等等

　　未完待续！

-------------------------------------------------------

续（1）：

　　早期算法分析：

　　CLIQUE聚类算法是基于密度和网格聚类算法的结合体。算法对数据输入顺序不敏感，可伸展性好，但是算法过程较为复杂。

　　算法步骤：

　　1、对n维空间进行划分，对每一个维度等量划分，将全空间划分为互不相交的矩形单元，并且识别其中的密集单元。（需要两个参数）

　　因为这样会有n^n个单元，遍历每个单元，获取该单元的数据点的个数，这样的做法很不合实际。我们简单分析一下，假设n=10，那么10^10就是100亿了。如果n是几十或者上百的话，这个就更大了。 O(N^N)

　　CLIQUE采用自下而上的识别方法：首先确定低维空间的数据密集单元，当确定了k-1维中所有的密集单元，k维空间上的可能密集单元就可以确定（算法1.1）。因为，当某一单元的数据在k维空间中是密集的，那么在任一k-1维空间中都是密集的。如果数据在某一k-1维空间中不密集，那么数据在k维空间中也是不密集。

　　算法1.1