摘要: 本文讲一下mahout中kmeans算法和Canopy算法实现原理。一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉。虽然算法较为简单,在实际应用中却可以有不错的效果;其算法原理也决定了其比较容易实现并行化。学习mahout就先从简单的kmeans算法开始学起,就当抛砖引玉了。1. 首先来简单的回顾一下KMeans算法:(1) 根据事先给定的k值建立初始划分,得到k个Cluster,比如,可以随机选择k个点作为k个Cluster的重心,又或者用其他算法得到的Cluster作为初始重心;(2)、计算每个点到各个Cluster重心的距离,将它加入到最近的那个Cluster;(3)、重新 阅读全文