【机器学习】谱聚类算法

一、基本原理

　　谱聚类是一种基于图论的算法，主要思想是把所有的数据看做空间中的点，这些点之间用带权边连接，距离越近权重越大，通过对这些点组成的图进行切割，让切图后的子图间的权重和尽可能小，子图内的权重尽可能大，从而达到聚类的目的。

　　切图的过程是：定义一个子图与其他子图间的权重和，同时要求每个子图的个数不能太少，这样图切问题就转换为了最小化这个权重和/子图个数的过程。优化这个过程我们定义一个指示矩阵h，要分为的类别是（A1,A2...Ak）,i属于Aj类则hij≠0，否则等于0，这样优化式子得到h之后我们就能知道各个节点的类别。根据分析得知，这个h的解与拉普拉斯矩阵L和权重矩阵D有关，具体来说是D^-1/2LD^-1/2的k个最小的特征值对应的特征向量，这样我们就得到了h，也将维度从n降到了k。一般来说需要对h进行按行进行标准化，然后再对这个n*k的矩阵按行进行kmeans聚类，就得到了最终的聚类结果。