摘要: 一.分布式爬虫简介 1.介绍: 分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集。比如爬虫A,B,C分别在三台服务器上,需要一个状态管理器集中分配,去重这三个爬虫的url,状态管理器也是一个服务,需要部署在某一个服务器上。 2.优点: (1)充分利用多机器的带宽加速爬取; (2)充分利用多机 阅读全文
posted @ 2018-10-11 20:51 biu嘟 阅读(1639) 评论(3) 推荐(0) 编辑
摘要: 一.scrapy暂停与重启 1.要暂停,就要保留一些中间信息,以便重启读取中间信息并从当前位置继续爬取,则需要一个目录存放中间信息: scrapy crawl spider_name -s JOBDIR=dir/001——spider_name是你要爬取得spider的py文件名,JOBDIR是命令 阅读全文
posted @ 2018-10-11 16:02 biu嘟 阅读(4242) 评论(0) 推荐(0) 编辑