0154月1日(星期二) 

晴 南风

  今天是愚人节,我们给同事过愚人节,爬虫也让我们技术部过了愚人节。通过对抓取数据的分析,发现有20%的数据都是重复数据。开会讨论,原来有两个问题,一个爬虫引擎有重大bug;另外一个问题,竟然对网页没有做去重处理。啊!My GOD!

通过和群里进行技术交流,大概明白了解决问题的思路。爬虫爬下的网页在通过ETL工具抽取到搜索引擎时候需要对内容进行去重的操作。评价网页内容重复的问题,大体上分为4种:

1、完全重复 文档内容和布局格式上毫无差别;

2、内容重复 文档内容相同,布局格式不同;

3、布局重复 文档重要的内容相同,布局相同;

4、部分重复 文档重要内容相同,布局格式不同。

我们出现的问题的原因,是因为爬虫组,只是对内容进行了简单的md5加密,作为索引。

不专业害死人呀!

我翻了翻网上的资料,网页去重流程大体如下图:

 

(上附图是我从网站找的)

去重的算法还不太复杂。大体上有Shingle算法、SuperShinge算法、I-Match算法和SimHash算法。在后面的几个章节,我会一一娓娓道来。

posted on 2015-12-02 13:02  成都笨笨  阅读(496)  评论(0编辑  收藏  举报