摘要: (注:本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html) 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主 阅读全文
posted @ 2019-09-11 21:33 kkbill 阅读(1568) 评论(0) 推荐(0) 编辑
摘要: (注:本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html) 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase ext 阅读全文
posted @ 2019-09-11 20:58 kkbill 阅读(4002) 评论(0) 推荐(1) 编辑
摘要: Simhash算法是Google应用在网页去重中的一个常用算法,在开始讲解Simhash之前,首先需要了解:什么是网页去重?为什么要进行网页去重?如何进行网页去重,其基本框架是什么? 网页去重,顾名思义,就是过滤掉重复的网页。统计结果表明,近似重复网页的数量占网页总数量的比例较高,即互联网上有很多的 阅读全文
posted @ 2019-09-11 16:54 kkbill 阅读(1365) 评论(2) 推荐(1) 编辑