2020 年 6月 17 日随笔档案 - Norni

2020年6月17日

摘要： Scrapy提供扩展（扩展是正常的python类，它们会在Scrapy启动时被实例化、初始化）机制，让人能将自定义功能绑定到Scrapy中。 1、Scrapy中的内置扩展设置EXTENSIONS_BASE 扩展在扩展类被实例化时加载和激活，实例化代码必须在类的构造函数（__init__）中执行。（阅读全文

posted @ 2020-06-17 20:56 Norni 阅读(652) 评论(0) 推荐(0) 编辑

二十二、Scrapy中的Spider中间件

摘要： Spider中间件可以用来处理发送给Spider的Response及Spider产生的Item和Request。 1、Scrapy内置的SPIDER_MIDDLEWARES_BASE （1）'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware 阅读全文

posted @ 2020-06-17 15:19 Norni 阅读(429) 评论(0) 推荐(1) 编辑

二十一：scrapy中设置下载延时与自动限速

摘要： 1、DOWNLOAD_DELAY 在settings中设置 DOWNLOAD_DELAY=2 #延时2秒，不能动态改变，导致访问延时都差不多，也容易被发现 2、RANDOMIZE_DOWNLOAD_DELAY 在settings中设置 RANDOMIZE_DOWNLOAD_DELAY=True # 阅读全文

posted @ 2020-06-17 14:10 Norni 阅读(5988) 评论(0) 推荐(2) 编辑

二十、scrapy中的Request对象和Response对象

摘要： 1、Request对象一个Request对象代表着一个HTTP请求，通常在Spider类中产生，然后传递给下载器，最后返回一个响应。类原型：class scrapy.http.Request( url(string), # 请求的连接 callback(callable), #指定用于解析请求响阅读全文

posted @ 2020-06-17 12:58 Norni 阅读(252) 评论(0) 推荐(0) 编辑

十九、通过Scrapy提供的API在程序中启动爬虫

摘要： Scrapy在Twisted异步网络库上构建，所以如果程序必须在Twisted reactor里运行 1、方式一：使用CrawlerProcess类 CrawlerProcess类(scrapy.crawler.CrawlerProcess)内部将会开启Twisted reactor、配置log和设阅读全文

posted @ 2020-06-17 11:29 Norni 阅读(483) 评论(0) 推荐(0) 编辑

公告