爬虫去重策略

1、将访问过的url保存到数据库中。（效率非常低）

2、将访问过的url保存到set中，只需要o(1)的代价就可以查询url。（内存占用大）（1亿条url占用6个G）

3、url经过md5等方法哈希后保存到set中（md5压缩url，降低内存）（scrapy使用的去重类似这种，1亿条url占用1个G）

4、用bitmap，将访问过的url通过hash函数映射到某一位。（通过0 1来判断，但是可能会发生冲突，多个url可能会映射到同一位）

5、bloomfilter方法对bitmap进行改进，多重hash函数降低冲突的可能性（1亿条url只占用12M左右）

posted @ 2018-04-13 21:15 寂静的天空阅读(319) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

个人感悟：一个人最好的镜子就是自己，你眼中的你和别人眼中的你，不是一回事。有人夸你，别信；有人骂你，别听。一根稻草，扔街上就是垃圾；捆上白菜就是白菜价；捆上大闸蟹就是大闸蟹的价。一个人，不狂是没有出息的，但一直狂，肯定是没有出息的。雨打残花风卷流云，剑影刀光闪过后，你满脸冷酷的站在珠峰顶端，傲视苍生无比英武，此时我问你：你怎么下去？改变自己就是改变自己的心态，该沉的时候沉下去，该浮的时候浮上来；不争名夺利，不投机取巧，不尔虞我诈；少说、多听、多行动。人每所谓穷通寿夭为命所系，岂不知造物之报施，全视人之自取。座佑铭：每一个不曾起舞的日子，都是对生命的辜负。

点击右上角即可分享

Felix Wang

Do the right things! Talk is cheap,Show me the code!

爬虫去重策略

公告