摘要: Scrapy引擎来爬虫中取起始的URL 1、调用start_requests方法(父类),并获取返回值 2、将放回值变成迭代器,通过iter() 3、执行__next__()方法取值 4、把返回值全部放到调度器中 在爬虫类中重写start_requests方法 from scrapy import 阅读全文
posted @ 2019-10-26 20:00 市丸银 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 一、深度 配置文件 settings.py 二、优先级 配置文件 优先级为正数时,随着深度越大,优先级越低 源码中,优先级 三、源码分析 1、深度 前提:scrapy yield request对象 -> 中间件 ->调度器... yield Request对象没有设置meta的值,meta默认为N 阅读全文
posted @ 2019-10-26 16:29 市丸银 阅读(1369) 评论(0) 推荐(0) 编辑