2019 年 10月 28 日随笔档案 - 市丸银

2019年10月28日

摘要：核心：共享爬取队列目的：实现分布式一、安装 pip3 install -i https://pypi.douban.com/simple scrapy-redis 二、去重 1、配置文件 scrapy 去重 DUPEFILTER_KEY = 'dupefilter:%(timestamp)s' 阅读全文

posted @ 2019-10-28 23:47 市丸银阅读(207) 评论(0) 推荐(0) 编辑

redis集合

摘要：存值若要存入集合的值已存在(redis)，则返回值r1或r2是 0 阅读全文

posted @ 2019-10-28 23:32 市丸银阅读(107) 评论(0) 推荐(0) 编辑

Scrapy信号量

摘要： 1、类 2、配置文件阅读全文

posted @ 2019-10-28 23:24 市丸银阅读(238) 评论(0) 推荐(0) 编辑

Scrapy定制命令开启爬虫

摘要：一、单爬虫运行每次运行scrapy都要在终端输入命令太麻烦了在项目的目录下创建manager.py（任意名称）二、所有爬虫运行 1、在spiders同级创建commands目录(任意) 2、在其中创建 crawlall.py 文件，决定命令的运行 3、配置文件 4、manager.py 阅读全文

posted @ 2019-10-28 23:11 市丸银阅读(251) 评论(0) 推荐(0) 编辑

Scrapy中间件

摘要：一、下载中间件 1、应用场景代理 USER_AGENT(在setting文件中配置即可) 2、定义类 a、process_request 返回None 执行顺序 md1 request -> md2 request -> md2 response -> md1 response b、process 阅读全文

posted @ 2019-10-28 22:56 市丸银阅读(237) 评论(0) 推荐(0) 编辑

市丸银

知行合一

公告