2021 年 7月 23 日随笔档案 - CJTARRR

2021年7月23日

摘要： 1、禁止重定向 REDIRECT_ENABLED = False 2、禁用cookies COOKIE_ENABLED = False 3、禁用referer REFERER_ENABLED = False 阅读全文

posted @ 2021-07-23 19:44 CJTARRR 阅读(99) 评论(0) 推荐(0) 编辑

摘要： import json# 需要设置headers和准备payload数据# 构建payload_headerspayload_headers = {}payload_headers['origin'] = 'https://xxxx.com'payload_headers[ 'user-agent 阅读全文

posted @ 2021-07-23 19:02 CJTARRR 阅读(112) 评论(0) 推荐(0) 编辑

重写dupefilter以解决scrapy-redis和scrapy-splash冲突问题

摘要： from __future__ import absolute_importfrom copy import deepcopyfrom scrapy.utils.request import request_fingerprintfrom scrapy.utils.url import cano 阅读全文

posted @ 2021-07-23 18:56 CJTARRR 阅读(287) 评论(0) 推荐(0) 编辑

常用替换User-Agent

摘要： USER_AGENT_LIST = [ "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mozi 阅读全文

posted @ 2021-07-23 18:50 CJTARRR 阅读(311) 评论(0) 推荐(0) 编辑

爬虫部署：scrapyd+gerapy

摘要： 1、安装scrapyd 服务端安装：pip install scrapyd 客户端安装:pip install scrapyd-client 2、启动scrapyd服务服务端建立一个deploy文件夹，cd到该文件夹中，执行sudo scrapyd或scrapyd。这时在服务端主机的6800端口打阅读全文

posted @ 2021-07-23 18:47 CJTARRR 阅读(88) 评论(0) 推荐(0) 编辑

通过selenium获得cookies(字典)

摘要： from selenium import webdriverbro = webdriver.Chrome()bro.get('https://www.baidu.com')# 这里获得的是包含cookie信息的字典们组成的列表cookies_dic_list = bro.get_cookies() 阅读全文

posted @ 2021-07-23 18:21 CJTARRR 阅读(164) 评论(0) 推荐(0) 编辑