代码改变世界

K-Means++算法

2012-12-20 17:40 by shelocks, 19247 阅读, 2 推荐, 收藏, 编辑
摘要:k-means算法是一种基本的聚类算法,这个算法的先决条件是 1)必须选择最终结果需要聚为几类,就是k的大小。 2)初始化聚类中心点,也就是seeds。 当然,我们可以在输入的数据集中随机的选择k个点作为seeds,但是随机选择初始seeds可能会造成聚类的结果和数据的实际分布相差很大。既然选择初始的seeds这么重要,那有什么算法可以帮助选择初始的seeds吗?当然有,k-means++就是选择初始seeds的一种算法。 k-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。wiki上对该算法的描述是如下:从输入的数据点集合中随机选择一个... 阅读全文