摘要: 不重复的关键在于爬虫记住爬行的历史.只有记住过去才可能不重复。爬虫记录历史的方式是散列表(也称为”杂凑表,’).每一条记录是否被抓取的信息存放在散列表的某一个槽位上。如果某网页在过去的某个时刻已经被抓取,则将其对应的槽位的值置I;反之置0,而具体映射到哪一个槽位,则由散列函数决定。 I . MD5签名函数 在介绍散列表前,首先简单了解一下MD5签名函数。MD5签名是一个散列函数,可以将任意长度的数据流转换为一个固定长度的数字(通常为4个整型数,即128位)。这个数字称为.‘数据流的签名”或者‘·指纹”.并且数据流中的任意一个微小的变化都会导致签名值发生变化。 将URL字符串数字化是通 阅读全文
posted @ 2013-03-16 15:37 盖文 阅读(277) 评论(0) 推荐(0) 编辑