摘要: 首先感谢作者yanyiwu贡献的开源项目https://github.com/yanyiwu/simhash。在做项目过程中,翻了一遍《这就是搜索引擎 核心技术详解》这本书的查重算法,在众多的算法中,我选择了simhash。这个算法的魅力在于,它把文本内容的相似性,转换为哈希值的相似性,很好理解,... 阅读全文
posted @ 2015-09-05 18:06 HOU_JUN 阅读(862) 评论(0) 推荐(0) 编辑