会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
iyjhabc
https://github.com/iyjhabc
博客园
首页
新随笔
联系
订阅
管理
2012年10月28日
[转]simhash进行文本查重
摘要: 有1亿个不重复的64位的01字符串,任意给出一个64位的01字符串f,如何快速从中找出与f汉明距离小于3的字符串? 大规模网页的近似查重主要翻译自WWW07的 Detecting Near-Duplicates for Web Crawling WWW上存在大量内容近似相同的网页,对搜索引擎而言,去除近似相同的网页可以提高检索效率、降低存储开销。当爬虫在抓取网页时必须很快能在海量文本集中快速找出是...
阅读全文
posted @ 2012-10-28 01:09 iyjhabc
阅读(335)
评论(0)
推荐(0)
编辑
公告