摘要: Scrapy提供扩展(扩展是正常的python类,它们会在Scrapy启动时被实例化、初始化)机制,让人能将自定义功能绑定到Scrapy中。 1、Scrapy中的内置扩展设置EXTENSIONS_BASE 扩展在扩展类被实例化时加载和激活,实例化代码必须在类的构造函数(__init__)中执行。 ( 阅读全文
posted @ 2020-06-17 20:56 Norni 阅读(652) 评论(0) 推荐(0) 编辑
摘要: Spider中间件可以用来处理发送给Spider的Response及Spider产生的Item和Request。 1、Scrapy内置的SPIDER_MIDDLEWARES_BASE (1)'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware 阅读全文
posted @ 2020-06-17 15:19 Norni 阅读(429) 评论(0) 推荐(1) 编辑
摘要: 1、DOWNLOAD_DELAY 在settings中设置 DOWNLOAD_DELAY=2 #延时2秒,不能动态改变,导致访问延时都差不多,也容易被发现 2、RANDOMIZE_DOWNLOAD_DELAY 在settings中设置 RANDOMIZE_DOWNLOAD_DELAY=True # 阅读全文
posted @ 2020-06-17 14:10 Norni 阅读(5988) 评论(0) 推荐(2) 编辑
摘要: 1、Request对象 一个Request对象代表着一个HTTP请求,通常在Spider类中产生,然后传递给下载器,最后返回一个响应。 类原型:class scrapy.http.Request( url(string), # 请求的连接 callback(callable), #指定用于解析请求响 阅读全文
posted @ 2020-06-17 12:58 Norni 阅读(252) 评论(0) 推荐(0) 编辑
摘要: Scrapy在Twisted异步网络库上构建,所以如果程序必须在Twisted reactor里运行 1、方式一:使用CrawlerProcess类 CrawlerProcess类(scrapy.crawler.CrawlerProcess)内部将会开启Twisted reactor、配置log和设 阅读全文
posted @ 2020-06-17 11:29 Norni 阅读(483) 评论(0) 推荐(0) 编辑