爬虫任务队列方案以及性能测试
摘要:
方案 任务队列存储在redis的list中,所有下载过、未下载的url存储在redis的set,通过set的sismember函数查重。 性能 set成员1.2kw左右,进行10000次测试,每次测试时需查重的url数量不一(20~100); 结果显示1000次查重运算(以及更多数量的正则匹配等运算 阅读全文
posted @ 2017-01-18 09:17 忧伤的南瓜 阅读(297) 评论(0) 推荐(0) 编辑