摘要:
Detecting Near-Duplicates for Web Crawling(转载:http://blog.csdn.net/eaglex/article/details/6297684)问题背景:在互联网中有很多的网页的内容(content)是一样的,但是他们的网页元素却不是完全相同的,因为每个域名下的网页总会有一些自己的东西,比如广告(advertisement)、导航栏、网站版权之类的东西,但是对于搜索引擎来讲,只有内容部分才是有意义的,而后面的那些虽然不同,但是对搜索结果没有任何影响,所以在判定内容是否重复的时候,应该忽视后面的部分,当新爬取的content和数据库中的某个网页 阅读全文