摘要: 首先感谢作者yanyiwu贡献的开源项目https://github.com/yanyiwu/simhash。在做项 目过程中,翻了一遍《这就是搜索引擎 核心技术详解》这本书的查重算法,在众多的算法中,我选择了simhash。这个算法的魅力在于,它把文本内容的相似性,转换为哈希值的相似性,很好理 解... 阅读全文
posted @ 2015-10-15 19:26 HOU_JUN 阅读(1278) 评论(0) 推荐(0) 编辑