2021年7月23日
摘要: 1、禁止重定向 REDIRECT_ENABLED = False 2、禁用cookies COOKIE_ENABLED = False 3、禁用referer REFERER_ENABLED = False 阅读全文
posted @ 2021-07-23 19:44 CJTARRR 阅读(99) 评论(0) 推荐(0) 编辑
摘要: import json# 需要设置headers和准备payload数据​# 构建payload_headerspayload_headers = {}payload_headers['origin'] = 'https://xxxx.com'payload_headers[ 'user-agent 阅读全文
posted @ 2021-07-23 19:02 CJTARRR 阅读(112) 评论(0) 推荐(0) 编辑
摘要: from __future__ import absolute_import​from copy import deepcopy​from scrapy.utils.request import request_fingerprintfrom scrapy.utils.url import cano 阅读全文
posted @ 2021-07-23 18:56 CJTARRR 阅读(287) 评论(0) 推荐(0) 编辑
摘要: USER_AGENT_LIST = [ "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mozi 阅读全文
posted @ 2021-07-23 18:50 CJTARRR 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 1、安装scrapyd 服务端安装:pip install scrapyd 客户端安装:pip install scrapyd-client 2、启动scrapyd服务 服务端建立一个deploy文件夹,cd到该文件夹中,执行sudo scrapyd或scrapyd。这时在服务端主机的6800端口打 阅读全文
posted @ 2021-07-23 18:47 CJTARRR 阅读(88) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver​bro = webdriver.Chrome()bro.get('https://www.baidu.com')# 这里获得的是包含cookie信息的字典们组成的列表cookies_dic_list = bro.get_cookies() 阅读全文
posted @ 2021-07-23 18:21 CJTARRR 阅读(164) 评论(0) 推荐(0) 编辑