摘要: 有1亿个不重复的64位的01字符串,任意给出一个64位的01字符串f,如何快速从中找出与f汉明距离小于3的字符串? 大规模网页的近似查重主要翻译自WWW07的 Detecting Near-Duplicates for Web Crawling WWW上存在大量内容近似相同的网页,对搜索引擎而言,去除近似相同的网页可以提高检索效率、降低存储开销。当爬虫在抓取网页时必须很快能在海量文本集中快速找出是... 阅读全文
posted @ 2012-10-28 01:09 iyjhabc 阅读(335) 评论(0) 推荐(0) 编辑