谱聚类的一些理解
有些东西反直觉,你要是没想通原因,就会一直在脑子里挥之不去。
第一大反直觉的东西,在谱聚类的时候找到的最小值对应的是第二小特征值。这个实在太反直觉了,怎么最小值对应的是第二小特征值呢,太不合理了。于是就去深究一下为什么是这样。问题背景可参考这篇论文,直接进入数学部分。
如果看过问题的背景一定知道这个问题的最小值是0,也就是对应的最小特征值是0,对应的特征向量是1,但是这个向量是没有意义的,达不到分类的效果,于是想着满足条件的第二小的值是否能达到效果,首先第二小的值对应的向量必须和1向量垂直,也就是和特征向量垂直,我们知道,对称矩阵有一个很好的特点,就是特征向量互相垂直,但是和全1 向量垂直的向量不一定是特征向量,那为什么要选择第二小的特征之对应的特征向量呢?这是因为特征向量可以张成一个空间。所以我们想找的向量一定可以由特征向量组成,这种情况下,只有第二小的特征值对应的值最小,其他的向量对应的分量一定会涉及特征值更大的特征向量,这个时候值就会变大。
数学语言描述
按照特征值由小到大的顺序排列对应的特征向量
a1,a2,a3...
任意一个特征向量X(模长确定),因为和a1垂直,所以不可能有a1分量
\(X = m*a2+n*ai\)
其中\(m^2+n^2 = 1\)
\(X'AX = m^2 {\lambda}_{2} +n^2 {\lambda}_{i}\)
\(X'AX -{\lambda}_{2} = (1-m^2)({\lambda}_{i}-{\lambda}_{2})>0\)
所以第二小的特征值是最小的
参考文献:
1、A tutorial on spectral clustering