摘要: 概念:多台机器上可以执行同一个爬虫程序,实现网站数据的分布爬取。 原生的scrapy是不可以实现分布式爬虫? a. 调度器无法共享 b. 管道无法共享 crapy-redis组件 专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式。 下载:pip install scrapy-re 阅读全文
posted @ 2019-04-15 16:45 梁少华 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 问题:如果我们想要对某一个网站的全站数据进行爬取?解决方案: 1. 手动请求的发送 2. CrawlSpider(推荐) CrawlSpider概念:CrawlSpider其实就是Spider的一个子类。CrawlSpider功能更加强大(链接提取器,规则解析器)。 创建: 爬虫相关操作 配置 阅读全文
posted @ 2019-04-15 16:33 梁少华 阅读(262) 评论(0) 推荐(0) 编辑