Information Retrieval --- Clustering

一、聚类算法

1.扁平聚类（k均值）

步骤：

a.重分配(reassignment): 将每篇文档分配给离它最近的簇
b.重计算(recomputation): 重新计算每个簇的质心向量

2.层次聚类

2.1单连接single-link：最大相似度（往往产生长的、凌乱的簇结构）

2.2全连接all-link：最小相似度

3.质心法: 平均的类间相似度（对离群点非常敏感）

4.组平均Group-average: 平均的类内和类间相似度

二、聚类评价

1.内部指标：RSS残差平方和（不能评价实际效用）

RSS = 所有簇上的文档向量到(最近的)质心向量的距离平方和的总和

2.外部指标

2.1纯度

2.2兰迪指数

posted on 2013-12-16 23:49 Jizhiyuan 阅读(302) 评论(0) 编辑收藏举报

刷新页面返回顶部

所以燃