2020 年 8月 6 日随笔档案 - 耗油炒白菜

2020年8月6日

摘要： scrapy自带去重策略：参考：https://www.cnblogs.com/liuqingzheng/p/16005880.html 配置文件： DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter' # 默认的去重规则帮我们去重，去重规则在阅读全文

posted @ 2020-08-06 23:17 耗油炒白菜阅读(442) 评论(0) 推荐(0) 编辑

scrapy中下载中间件异常处理

摘要：示例： def process_exception(self, request, exception, spider): # Called when a download handler or a process_request() # (from other downloader middlewa 阅读全文

posted @ 2020-08-06 22:25 耗油炒白菜阅读(516) 评论(0) 推荐(0) 编辑

selenium在scrapy中的使用流程

摘要： # 当前爬虫用的selenium是同一个 1、在爬虫中初始化webdriver对象 import scrapy from selenium import webdriver class CnblogSpider(scrapy.Spider): name = 'cnblog' allowed_doma 阅读全文

posted @ 2020-08-06 22:19 耗油炒白菜阅读(186) 评论(0) 推荐(0) 编辑

scrapy的中间件（下载中间件）

摘要： middleware.py # 下载中间件 # middlewares.py -process_request：返回不同的对象，后续处理不同（加代理...） class CnblogsDownloaderMiddleware: @classmethod def from_crawler(cls, c 阅读全文

posted @ 2020-08-06 22:14 耗油炒白菜阅读(92) 评论(0) 推荐(0) 编辑

提升scrapy爬取数据的效率

摘要：方法： - 在配置文件中进行相关的配置即可:(默认还有一套setting) #1 增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 #2 降低日志级别：在运行s 阅读全文

posted @ 2020-08-06 20:25 耗油炒白菜阅读(133) 评论(0) 推荐(0) 编辑

耗油炒白菜

公告