欢迎来到Felix的博客

Do the right things! And talk is cheap,show me your code!

爬虫去重策略

1、将访问过的url保存到数据库中。(效率非常低)

2、将访问过的url保存到set中,只需要o(1)的代价就可以查询url。(内存占用大)(1亿条url占用6个G)

3、url经过md5等方法哈希后保存到set中(md5压缩url,降低内存) (scrapy使用的去重类似这种,1亿条url占用1个G)

4、用bitmap,将访问过的url通过hash函数映射到某一位。(通过0 1来判断,但是可能会发生冲突,多个url可能会映射到同一位)

5、bloomfilter方法对bitmap进行改进,多重hash函数降低冲突的可能性(1亿条url只占用12M左右)

posted @ 2018-04-13 21:15  寂静的天空  阅读(319)  评论(0编辑  收藏  举报
个人感悟: 一个人最好的镜子就是自己,你眼中的你和别人眼中的你,不是一回事。有人夸你,别信;有人骂你,别听。一根稻草,扔街上就是垃圾;捆上白菜就是白菜价;捆上大闸蟹就是大闸蟹的价。 一个人,不狂是没有出息的,但一直狂,肯定是没有出息的。雨打残花风卷流云,剑影刀光闪过后,你满脸冷酷的站在珠峰顶端,傲视苍生无比英武,此时我问你:你怎么下去? 改变自己就是改变自己的心态,该沉的时候沉下去,该浮的时候浮上来;不争名夺利,不投机取巧,不尔虞我诈;少说、多听、多行动。人每所谓穷通寿夭为命所系,岂不知造物之报施,全视人之自取。 座佑铭:每一个不曾起舞的日子,都是对生命的辜负。