随笔档案「2012年5月8日」：【聚类】— Canopy算法 ... - 真心的不懂

2012年5月8日

摘要： Canopy一般用在K均值之前的粗聚类。考虑到K均值在使用上必须要确定K的大小，而往往数据集预先不能确定K的值大小的，这样如果K取的不合理会带来K均值的误差很大（也就是说K均值对噪声的抗干扰能力较差）。总之基于以下三种原因，选择利用Canopy聚类做为Kmeans的前奏比较科学、也是Canopy的优点。Canopy的优点：1、Kmeans对噪声抗干扰较弱，通过Canopy对比较小的NumPoint的Cluster直接去掉有利于抗干扰。2、Canopy选择出来的每个Canopy的centerPoint作为Kmeans比较科学。 3、只是针对每个Canopy的内容做Kmeans聚类，减少相似计算阅读全文

posted @ 2012-05-08 19:23 真心的不懂阅读(13957) 评论(2) 推荐(0)

公告