爬虫任务队列方案以及性能测试

方案

任务队列存储在redis的list中,所有下载过、未下载的url存储在redis的set,通过set的sismember函数查重。

性能

set成员1.2kw左右,进行10000次测试,每次测试时需查重的url数量不一(20~100);

结果显示1000次查重运算(以及更多数量的正则匹配等运算)的合计速度是0.15秒;

因为sismember函数的时间复杂度是O(1),估计只要set成员数量不是特别多,这个测试的速度是有参考价值的。

posted on 2017-01-18 09:17  忧伤的南瓜  阅读(297)  评论(0编辑  收藏  举报

导航