2020 年 8月 6 日随笔档案 - 江湖有梦

2020年8月6日

摘要：简介原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址）分布式爬取的关键： 1、共享队列 2、重写Scheduler，让其无论是去重还是任务都去访问共享队列 3、为Scheduler定制去重规则（利用re 阅读全文

posted @ 2020-08-06 19:13 江湖有梦阅读(121) 评论(0) 推荐(0) 编辑

09 scrapy的中间件

摘要： scrapy的中间件简介 1 都写在middlewares.py 2 爬虫中间件 3 下载中间件 4 要生效，一定要配置，配置文件下载中间件：下载中间件的用途 1、在process——request内，自定义下载，不用scrapy的下载 2、对请求进行二次加工，比如设置请求头设置cookie 阅读全文

posted @ 2020-08-06 19:12 江湖有梦阅读(90) 评论(0) 推荐(0) 编辑

08 scrapy框架

摘要： scrapy介绍通用的网络爬虫框架架构介绍（框架）一、scrapy执行流程五大组件 -引擎(EGINE)：大总管，负责控制数据的流向 -调度器(SCHEDULER)：由它来决定下一个要抓取的网址是什么，去重 -下载器(DOWLOADER)：用于下载网页内容, 并将网页内容返回给EGINE，阅读全文

posted @ 2020-08-06 14:49 江湖有梦阅读(99) 评论(0) 推荐(0) 编辑

公告