Information Retrieval --- Clustering
一、聚类算法
1.扁平聚类(k均值)
步骤:
a.重分配(reassignment): 将每篇文档分配给离它最近的簇
b.重计算(recomputation): 重新计算每个簇的质心向量
2.层次聚类
2.1单连接single-link:最大相似度(往往产生长的、凌乱的簇结构)
2.2全连接all-link:最小相似度
4.组平均Group-average: 平均的类内和类间相似度
二、聚类评价
1.内部指标:RSS残差平方和(不能评价实际效用)
RSS = 所有簇上的文档向量到(最近的)质心向量的距离平方和的总和
2.外部指标
2.1纯度
2.2兰迪指数