聚类方法总结
1.基于划分
k-means
优点:快速,简单,高效
缺点:对异常值很敏感,并且只能寻找球形的聚类
k-medoids
优点:克服k-均值法的异常值敏感性问题
缺点:计算较为复杂,耗费的计算机时间比K-means多
2.基于层次
分为两种:
划分方法(自上而下) 聚集方法(自下而上)
大部分的分层方法是聚集的
代表算法:BIRCH、CURE、ROCK和CHAMELEON
3.基于密度
优点: 能够发现任意形状的簇,克服了基于划分聚类的缺点
代表算法:DBSCAN,OPTICS,PreDeCon
OPTICS是DBSCAN的扩展,对用户定义的参数不太敏感
PreDeCon是DBSCAN的扩展,对高维数据集效果更好
4.基于网格
基于网格的聚类方法将数据空间量化为多分辨率网格结构。
网格结构包含许多单元,每个单元都有一个子空间,并在子空间中存储数据对象的摘要信息。
通过处理这种数据结构,聚类方法通常是快速的,并且与数据集的大小无关。
代表算法:STING WaveCluster(不适合高维数据)