摘要: 自定义low版Scrapy框架: 1 from twisted.internet import reactor #事件循环(终止条件,所有的socket都已经移除) 2 from twisted.web.client import getPage #socket对象(如果下载完成..自动从事件循环中 阅读全文
posted @ 2023-12-08 15:17 木屐呀 阅读(6) 评论(0) 推荐(0) 编辑
摘要: ① getPage 1 1 # socket对象(如果下载完成..自动从事件循环中移除) 2 2 from twisted.web.client import getPage 详解: 1 def getPage(url, contextFactory=None, *args, **kwargs): 阅读全文
posted @ 2023-12-08 15:17 木屐呀 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 自定制命令 1. 在spiders同级创建任意目录,如:commands 2. 在其中创建 crawlall.py 文件 (此处文件名就是自定义的命令) #crawlall.py文件 1 from scrapy.commands import ScrapyCommand 2 from scrapy. 阅读全文
posted @ 2023-12-08 15:17 木屐呀 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 一.下载中间件(DownMiddleware) 三种方法: 1 process_request(self, request, spider) 2 3 process_response(self, request, response, spider) 4 5 process_exception(sel 阅读全文
posted @ 2023-12-08 15:16 木屐呀 阅读(9) 评论(0) 推荐(0) 编辑
摘要: ① 自动限速算法 1 """ 2 17. 自动限速算法 3 from scrapy.contrib.throttle import AutoThrottle 4 自动限速设置 5 1. 获取最小延迟 DOWNLOAD_DELAY 6 2. 获取最大延迟 AUTOTHROTTLE_MAX_DELAY 阅读全文
posted @ 2023-12-08 15:16 木屐呀 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 部分配置文件详解: 1 # -*- coding: utf-8 -*- 2 3 # Scrapy settings for test001 project 4 # 5 # For simplicity, this file contains only settings considered impo 阅读全文
posted @ 2023-12-08 15:14 木屐呀 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 自定义扩展时,利用信号在指定位置注册制定操作 源码剖析: 1 from scrapy.extensions.telnet import TelnetConsole #查看TelnetConsole源码 2 3 # Enable or disable extensions 4 # See https: 阅读全文
posted @ 2023-12-08 15:13 木屐呀 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 格式化处理 在parse方法中直接处理是简单的处理方式,不太建议,如果对于想要获取更多的数据处理,则可以利用Scrapy的items将数据格式化,然后统一交由pipelines来处理 以爬取校花网校花图片相关信息为例: 1 import scrapy 2 from scrapy.selector i 阅读全文
posted @ 2023-12-08 15:13 木屐呀 阅读(3) 评论(0) 推荐(0) 编辑
摘要: scrapy默认使用 scrapy.dupefilter.RFPDupeFilter 进行去重,相关配有: 1 DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter' #一般更改此参数 2 DUPEFILTER_DEBUG = False 3 JOB 阅读全文
posted @ 2023-12-08 15:13 木屐呀 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 自动登录抽屉并点赞 1 # -*- coding: utf-8 -*- 2 import scrapy 3 from scrapy.selector import Selector,HtmlXPathSelector #选择器,标签查找 4 from ..items import ChoutiIte 阅读全文
posted @ 2023-12-08 15:13 木屐呀 阅读(49) 评论(0) 推荐(0) 编辑
//增加一段JS脚本,为目录生成使用