摘要: 简介 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 分布式爬取的关键: 1、共享队列 2、重写Scheduler,让其无论是去重还是任务都去访问共享队列 3、为Scheduler定制去重规则(利用re 阅读全文
posted @ 2020-08-06 19:13 江湖有梦 阅读(121) 评论(0) 推荐(0) 编辑
摘要: scrapy的中间件简介 1 都写在middlewares.py 2 爬虫中间件 3 下载中间件 4 要生效,一定要配置,配置文件 下载中间件: 下载中间件的用途 1、在process——request内,自定义下载,不用scrapy的下载 2、对请求进行二次加工,比如 设置请求头 设置cookie 阅读全文
posted @ 2020-08-06 19:12 江湖有梦 阅读(90) 评论(0) 推荐(0) 编辑
摘要: scrapy介绍 通用的网络爬虫框架 架构介绍(框架) 一、scrapy执行流程 五大组件 -引擎(EGINE):大总管,负责控制数据的流向 -调度器(SCHEDULER):由它来决定下一个要抓取的网址是什么,去重 -下载器(DOWLOADER):用于下载网页内容, 并将网页内 容返回给EGINE, 阅读全文
posted @ 2020-08-06 14:49 江湖有梦 阅读(99) 评论(0) 推荐(0) 编辑