【机器学习】谱聚类算法

一、基本原理

  谱聚类是一种基于图论的算法,主要思想是把所有的数据看做空间中的点,这些点之间用带权边连接,距离越近权重越大,通过对这些点组成的图进行切割,让切图后的子图间的权重和尽可能小,子图内的权重尽可能大,从而达到聚类的目的。

  切图的过程是:定义一个子图与其他子图间的权重和,同时要求每个子图的个数不能太少,这样图切问题就转换为了最小化这个权重和/子图个数的过程。优化这个过程我们定义一个指示矩阵h,要分为的类别是(A1,A2...Ak),i属于Aj类则hij≠0,否则等于0,这样优化式子得到h之后我们就能知道各个节点的类别。根据分析得知,这个h的解与拉普拉斯矩阵L和权重矩阵D有关,具体来说是D-1/2LD-1/2的k个最小的特征值对应的特征向量,这样我们就得到了h,也将维度从n降到了k。一般来说需要对h进行按行进行标准化,然后再对这个n*k的矩阵按行进行kmeans聚类,就得到了最终的聚类结果。

二、推导

   

  

三、优缺点

  优点:只需要相似度矩阵,方便处理稀疏数据的聚类;使用了降维,处理高维数据效果比传统聚类方法好。

  缺点:如果降维的幅度不够,效果和效率均不够好;依赖于相似度矩阵。

四、参考资料

   https://www.cnblogs.com/pinard/p/6221564.html

posted @ 2018-08-06 20:16  我若成风者  阅读(2307)  评论(0编辑  收藏  举报