2021 年 11月 23 日随笔档案 - 墨染清浅

2021年11月23日

摘要：增量式爬虫 - 概念：监测网站数据更新的情况，只会爬取网站最新更新出来的数据。 - 分析： - 指定一个起始url - 基于CrawlSpider获取其他页码链接 - 基于Rule将其他页码链接进行请求 - 从每一个页码对应的页面源码中解析出每一个电影详情页的URL - 核心：检测电影详情页的url 阅读全文

posted @ 2021-11-23 16:13 墨染清浅阅读(42) 评论(0) 推荐(0) 编辑

分布式爬虫

摘要： - 分布式爬虫 - 概念：我们需要搭建一个分布式的机群，让其对一组资源进行分布联合爬取。 - 作用：提升爬取数据的效率 - 如何实现分布式？ - 安装一个scrapy-redis的组件 - 原生的scarapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布阅读全文

posted @ 2021-11-23 16:06 墨染清浅阅读(130) 评论(0) 推荐(0) 编辑

CrawlSpider全站式爬虫

摘要： - CrawlSpider:类，Spider的一个子类 - 全站数据爬取的方式 - 基于Spider：手动请求 - 基于CrawlSpider - CrawlSpider的使用： - 创建一个工程 - cd XXX - 创建爬虫文件（CrawlSpider）： - scrapy genspider 阅读全文

posted @ 2021-11-23 16:05 墨染清浅阅读(57) 评论(0) 推荐(0) 编辑

清浅

疏影横斜水清浅，暗香浮动月黄昏~

公告