摘要: MinHash是用于快速检测两个集合的相似性的方法。改方法由Andrei Broder(1997)发明,并最初用于搜索引擎AltaVista中来检测重复的网页的算法。它同样可以用于推荐系统和大规模文档聚类中。 我们先介绍Jaccard相似度量。对于两个集合A与B,Jaccard相似性系数可以定义为: 阅读全文
posted @ 2014-11-29 21:49 白婷 阅读(683) 评论(0) 推荐(0) 编辑
摘要: TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它 阅读全文
posted @ 2014-11-29 21:25 白婷 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 相似度对比的两种计算算法:Jaccard similarity相似性系数和Ochiai coefficient落和系数 Jaccard coefficient:A,B分别代表符合某种条件的集合:两个集合交集的大小/两个集合并集的大小,交集=并集意味着2个集合完全重合。 Ochiai coeffici 阅读全文
posted @ 2014-11-29 21:12 白婷 阅读(2907) 评论(0) 推荐(0) 编辑