ROCK 算法

rock算法主要用于类别型数据,如关键字、布尔属性、枚举值。该算法能很好的处理大型数据集。rock算法的核心思想是基于链接的相似性的度量。

相似度的计算:

rock算法是基于链接的,链接意思是:两个数据点公有的邻居,当我们考虑是否需要合并聚类X与聚类Y时,通过计算两个聚类中数据点之间的链接数量;

Rock算法相似的计算公式(两个聚类之间)

1》 基于欧几里德距离的,均方差

2》 基于集合论的Jaccard 系数

3》 余弦定理,向量求解

算法求解步骤:

1.设置聚类的个数,和相似度阈值

2.设置相似度矩阵和链接矩阵

3.rock是自底向上的层次凝聚算法,最初每个点都是单独的聚类,然后进行合并,直到所有的点都合并成一个聚类

算法终止条件:

1》达到需要的聚类数量

2》在两次迭代中没有聚类的数量变换

posted @ 2013-12-05 11:22  曹守鑫  阅读(1340)  评论(0编辑  收藏  举报