《K-means聚类算法研究综述》笔记

K-Means聚类算法是一个NP难优化问题,无法获得global optimize,K-Means算法是一个贪心算法。

步骤:

1、选定初始聚类中心

2、根据数据对象与这些聚类中心的欧式距离,按距离最近的准则将他们分配给与其最形似的聚类中心所属的类

3、计算J(C)值

4、若J(C)值不未发生改变,则聚类结束,否则跳到步骤2

经典K-Means目标函数:

      

他选取欧式距离作为相似性和距离判断标准。

别的资料都不说,只记录下面的内容:

1、对类别个数K的选取

经常选对应曲线的拐点,因为它接近最优的K值,而有的J-K曲线不易找到拐点。对K的选择改进的算法是ISODATA,迭代自组织数据分析算法,Iterative Self-organizing Data Analysis Techniques Algorithm。

2、初始聚类中心的选取

不同的初始聚类中心的选取得到的最终local optimize不同。对应的有随机重启动K-Means算法。它设置一个值N,重复N次随机选取初始聚类中心过程。此算法是一个确定性过程。

3、相似性度量和距离矩阵

K-Means聚类算法划分出来的类别都是类球形的。它属于硬聚类算法,不易处理聚类不是致密而是壳形的情形。


posted @ 2015-11-07 19:23  StevenLuke  阅读(326)  评论(0编辑  收藏  举报