2019 年 4月 15 日随笔档案 - 梁少华

2019年4月15日

摘要：概念：多台机器上可以执行同一个爬虫程序，实现网站数据的分布爬取。原生的scrapy是不可以实现分布式爬虫？ a. 调度器无法共享 b. 管道无法共享 crapy-redis组件专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式。下载：pip install scrapy-re 阅读全文

posted @ 2019-04-15 16:45 梁少华阅读(244) 评论(0) 推荐(0) 编辑

Scrapy之CrawlSpider

摘要：问题：如果我们想要对某一个网站的全站数据进行爬取？解决方案： 1. 手动请求的发送 2. CrawlSpider（推荐） CrawlSpider概念：CrawlSpider其实就是Spider的一个子类。CrawlSpider功能更加强大（链接提取器，规则解析器）。创建：爬虫相关操作配置阅读全文

posted @ 2019-04-15 16:33 梁少华阅读(262) 评论(0) 推荐(0) 编辑

梁少华

公告