2019 年 3月 5 日随笔档案 - 茉莉花M

2019年3月5日

摘要：基于redis的分布式爬虫问题：（1）为什么原生的scrapy框架不可以自己实现分布式爬虫？原因有两个：（1）因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url（调度器不能被共享）（2）多台机器爬取到的数据无法通过同一个管道阅读全文

posted @ 2019-03-05 22:03 茉莉花M 阅读(459) 评论(0) 推荐(0) 编辑

python爬虫之Scrapy框架（CrawSpider）

摘要：需求想要爬去糗事百科全站的数据方法：（1）基于Scrapy框架中的Spider的递归爬去实现（2）基于Scrapy框架的CrawlSpider的自动爬取来进行实现那么CrawlSpider又是什么呢？如何实现它的自动爬取？ CrawlSpider的简介一简介 crawlspider是阅读全文

posted @ 2019-03-05 21:50 茉莉花M 阅读(1177) 评论(0) 推荐(0) 编辑

茉莉花M

公告