Information Retrieval --- Clustering
摘要:
一、聚类算法1.扁平聚类(k均值)步骤:a.重分配(reassignment): 将每篇文档分配给离它最近的簇 b.重计算(recomputation): 重新计算每个簇的质心向量2.层次聚类2.1单连接single-link:最大相似度(往往产生长的、凌乱的簇结构)2.2全连接all-link:最小相似度3.质心法: 平均的类间相似度(对离群点非常敏感) 4.组平均Group-average: 平均的类内和类间相似度二、聚类评价1.内部指标:RSS残差平方和(不能评价实际效用)RSS = 所有簇上的文档向量到(最近的)质心向量的距离平方和的总和 2.外部指标2.1纯度2.2兰迪指数 阅读全文
posted @ 2013-12-16 23:49 Jizhiyuan 阅读(302) 评论(0) 推荐(0) 编辑