搜索引擎手记（三）之网页的去重

015年4月1日(星期二)

晴南风

　　今天是愚人节，我们给同事过愚人节，爬虫也让我们技术部过了愚人节。通过对抓取数据的分析，发现有20%的数据都是重复数据。开会讨论，原来有两个问题，一个爬虫引擎有重大bug；另外一个问题，竟然对网页没有做去重处理。啊！My GOD！

通过和群里进行技术交流，大概明白了解决问题的思路。爬虫爬下的网页在通过ETL工具抽取到搜索引擎时候需要对内容进行去重的操作。评价网页内容重复的问题，大体上分为4种：

1、完全重复文档内容和布局格式上毫无差别；

2、内容重复文档内容相同，布局格式不同；

3、布局重复文档重要的内容相同，布局相同；

4、部分重复文档重要内容相同，布局格式不同。

我们出现的问题的原因，是因为爬虫组，只是对内容进行了简单的md5加密，作为索引。

不专业害死人呀！

我翻了翻网上的资料，网页去重流程大体如下图：

（上附图是我从网站找的）

去重的算法还不太复杂。大体上有Shingle算法、SuperShinge算法、I-Match算法和SimHash算法。在后面的几个章节，我会一一娓娓道来。

posted on 2015-12-02 13:02 成都笨笨阅读(526) 评论(0) 收藏举报