摘要: 布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。哈希表也能用于判断元素是否在集... 阅读全文
posted @ 2014-04-17 13:39 曹守鑫 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 信息指纹:通过提取一个信息的特征,通常是一组词或者一组词+权重,然后根据这组词调用特别的算法例如MD5算法,将之转化为一组代码,这组代码就是标识这段信息的指纹;在抓取阶段,蜘蛛程序为了避免重复抓取,会建立起一张hash表,将抓取的链接存储,我们先来假定直接存储网址,互联网上有5000亿个网页,假定要... 阅读全文
posted @ 2014-04-17 11:07 曹守鑫 阅读(1483) 评论(0) 推荐(0) 编辑