摘要: scrapy本身并不是一个为分布式爬取而设计的框架,但第三方库scrapy-redis为其扩展了分布式抓取的功能,在分布式爬虫框架中,需要使用某种通信机制协调各个爬虫工作 (1)当前的爬取任务,下载+提取数据(分配任务) (2)当前爬取任务是否已经被其他爬虫执行过(任务去重) (3)如何存储怕去到的 阅读全文
posted @ 2018-05-16 18:00 Mr.SSC 阅读(157) 评论(0) 推荐(0) 编辑