《K-means聚类算法研究综述》笔记
K-Means聚类算法是一个NP难优化问题,无法获得global optimize,K-Means算法是一个贪心算法。
步骤:
1、选定初始聚类中心
2、根据数据对象与这些聚类中心的欧式距离,按距离最近的准则将他们分配给与其最形似的聚类中心所属的类
3、计算J(C)值
4、若J(C)值不未发生改变,则聚类结束,否则跳到步骤2
经典K-Means目标函数:
他选取欧式距离作为相似性和距离判断标准。
别的资料都不说,只记录下面的内容:
1、对类别个数K的选取
经常选对应曲线的拐点,因为它接近最优的K值,而有的J-K曲线不易找到拐点。对K的选择改进的算法是ISODATA,迭代自组织数据分析算法,Iterative Self-organizing Data Analysis Techniques Algorithm。
2、初始聚类中心的选取
不同的初始聚类中心的选取得到的最终local optimize不同。对应的有随机重启动K-Means算法。它设置一个值N,重复N次随机选取初始聚类中心过程。此算法是一个确定性过程。
3、相似性度量和距离矩阵
K-Means聚类算法划分出来的类别都是类球形的。它属于硬聚类算法,不易处理聚类不是致密而是壳形的情形。