随笔档案「2013年1月26日」：机器学习-KMeans聚类 K值以及初始类簇中心点的选取 ... - 潘的博客

2013年1月26日

机器学习-KMeans聚类 K值以及初始类簇中心点的选取

摘要：本文主要基于Anand Rajaraman和Jeffrey David Ullman合著，王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。 KMeans算法是最常用的聚类算法，主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。 KMeans算法本身思想比较简单，但是合理的确定K值和K个初始类簇中心点对于聚类效果的好坏有很大的影响。 1. 确定K. 阅读全文

posted @ 2013-01-26 00:36 潘的博客阅读(27317) 评论(8) 推荐(4)

机器学习-KMeans聚类 K值以及初始类簇中心点的选取

导航

公告