2018 年 10月 11 日随笔档案 - biu嘟

2018年10月11日

摘要：一.分布式爬虫简介 1.介绍：分布式爬虫就是多台计算机上都安装爬虫程序，重点是联合采集。比如爬虫A，B，C分别在三台服务器上，需要一个状态管理器集中分配，去重这三个爬虫的url，状态管理器也是一个服务，需要部署在某一个服务器上。 2.优点：（1）充分利用多机器的带宽加速爬取；（2）充分利用多机阅读全文

posted @ 2018-10-11 20:51 biu嘟阅读(1639) 评论(3) 推荐(0) 编辑

scrapy暂停和重启，及url去重原理,telenet简单使用

摘要：一.scrapy暂停与重启 1.要暂停，就要保留一些中间信息，以便重启读取中间信息并从当前位置继续爬取，则需要一个目录存放中间信息： scrapy crawl spider_name -s JOBDIR=dir/001——spider_name是你要爬取得spider的py文件名，JOBDIR是命令阅读全文

posted @ 2018-10-11 16:02 biu嘟阅读(4242) 评论(0) 推荐(0) 编辑

biu嘟

公告