mahout下的Canopy Clustering实现
摘要:
转自:http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html为便于理解 有修改一、基本思想1、基于Canopy Method的聚类算法将聚类过程分为两个阶段 Stage1、聚类最耗费计算的地方是计算对象相似性的时候,Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性,将相似的对象放在一个子集中,这个子集被叫做Canopy ,通过一系列计算得到若干Canopy,Canopy之间可以是重叠的,但不会存在某个对象不属于任何Canopy的情况,可以把这一阶段看做数据预处理; Stage2、在各个C 阅读全文
posted @ 2012-07-18 16:46 as_ 阅读(4680) 评论(2) 推荐(0) 编辑