glose

2012年5月27日

Detecting Near-Duplicates for Web Crawling

摘要： Detecting Near-Duplicates for Web Crawling（转载：http://blog.csdn.net/eaglex/article/details/6297684）问题背景：在互联网中有很多的网页的内容(content)是一样的，但是他们的网页元素却不是完全相同的，因为每个域名下的网页总会有一些自己的东西，比如广告(advertisement)、导航栏、网站版权之类的东西，但是对于搜索引擎来讲，只有内容部分才是有意义的，而后面的那些虽然不同，但是对搜索结果没有任何影响，所以在判定内容是否重复的时候，应该忽视后面的部分，当新爬取的content和数据库中的某个网页阅读全文

posted @ 2012-05-27 09:54 glose 阅读(672) 评论(0) 推荐(0) 编辑

glose

公告