摘要: 当有大量url需要下载时,串行爬取速度较慢,需要使用多线程、多进程进行爬取,以及部署分布式爬虫等 1.多线程爬虫 下面代码中三个线程时,爬取61个url,花费16-25s;五个线程时,花费41-55s。(线程间的切换也消耗时间) 2.多进程爬虫 2.1 多进程 下面代码中两个进程,爬取61个url, 阅读全文
posted @ 2018-12-27 21:58 silence_cho 阅读(445) 评论(0) 推荐(0) 编辑