摘要: 基于redis的分布式爬虫 问题: (1)为什么原生的scrapy框架不可以自己实现分布式爬虫? 原因有两个: (1)因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url(调度器不能被共享) (2)多台机器爬取到的数据无法通过同一个管道 阅读全文
posted @ 2019-03-05 22:03 茉莉花M 阅读(456) 评论(0) 推荐(0) 编辑
摘要: 需求 想要爬去糗事百科全站的数据 方法: (1)基于Scrapy框架中的Spider的递归爬去实现 (2) 基于Scrapy框架的CrawlSpider的自动爬取来进行实现 那么CrawlSpider又是什么呢?如何实现它的自动爬取? CrawlSpider的简介 一 简介 crawlspider是 阅读全文
posted @ 2019-03-05 21:50 茉莉花M 阅读(1172) 评论(0) 推荐(0) 编辑