2012年5月8日
摘要: Canopy一般用在K均值之前的粗聚类。考虑到K均值在使用上必须要确定K的大小,而往往数据集预先不能确定K的值大小的,这样如果K取的不合理会带来K均值的误差很大(也就是说K均值对噪声的抗干扰能力较差)。总之基于以下三种原因,选择利用Canopy聚类做为Kmeans的前奏比较科学、也是Canopy的优点。Canopy的优点:1、Kmeans对噪声抗干扰较弱,通过Canopy对比较小的NumPoint的Cluster直接去掉 有利于抗干扰。2、Canopy选择出来的每个Canopy的centerPoint作为Kmeans比较科学。 3、只是针对每个Canopy的内容做Kmeans聚类,减少相似计算 阅读全文
posted @ 2012-05-08 19:23 真心的不懂 阅读(13830) 评论(2) 推荐(0) 编辑