selenium获取伪类元素
摘要:1、先定位到伪类元素节点 利用xpath、css_selector都可以,只要定位到元素所在的节点就行 2、执行js代码获取content content = bro.execute_script("return window.getComputedStyle(arguments[0], '::be
阅读全文
posted @
2021-07-29 17:51
CJTARRR
阅读(470)
推荐(0) 编辑
selenium控制鼠标悬停和滑动滑块操作
摘要:from selenium import webdriverfrom selenium.webdriver import ActionChainsbro = webdriver.Chrome()# 生成action对象action = ActionChains(bro)# 找到要操作的元素eleme
阅读全文
posted @
2021-07-24 16:13
CJTARRR
阅读(251)
推荐(0) 编辑
scrapy常用设置
摘要:1、禁止重定向 REDIRECT_ENABLED = False 2、禁用cookies COOKIE_ENABLED = False 3、禁用referer REFERER_ENABLED = False
阅读全文
posted @
2021-07-23 19:44
CJTARRR
阅读(107)
推荐(0) 编辑
scrapy发送payload数据的post请求
摘要:import json# 需要设置headers和准备payload数据# 构建payload_headerspayload_headers = {}payload_headers['origin'] = 'https://xxxx.com'payload_headers[ 'user-agent
阅读全文
posted @
2021-07-23 19:02
CJTARRR
阅读(137)
推荐(0) 编辑
重写dupefilter以解决scrapy-redis和scrapy-splash冲突问题
摘要:from __future__ import absolute_importfrom copy import deepcopyfrom scrapy.utils.request import request_fingerprintfrom scrapy.utils.url import cano
阅读全文
posted @
2021-07-23 18:56
CJTARRR
阅读(299)
推荐(0) 编辑
常用替换User-Agent
摘要:USER_AGENT_LIST = [ "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mozi
阅读全文
posted @
2021-07-23 18:50
CJTARRR
阅读(320)
推荐(0) 编辑
爬虫部署:scrapyd+gerapy
摘要:1、安装scrapyd 服务端安装:pip install scrapyd 客户端安装:pip install scrapyd-client 2、启动scrapyd服务 服务端建立一个deploy文件夹,cd到该文件夹中,执行sudo scrapyd或scrapyd。这时在服务端主机的6800端口打
阅读全文
posted @
2021-07-23 18:47
CJTARRR
阅读(93)
推荐(0) 编辑
通过selenium获得cookies(字典)
摘要:from selenium import webdriverbro = webdriver.Chrome()bro.get('https://www.baidu.com')# 这里获得的是包含cookie信息的字典们组成的列表cookies_dic_list = bro.get_cookies()
阅读全文
posted @
2021-07-23 18:21
CJTARRR
阅读(173)
推荐(0) 编辑
利用airtest爬取app内容
摘要:1、下载安装airtest airtest官网:https://airtest.netease.com/home/ 进入官网就可以看到下载按钮。 下载完成后是一个压缩包,解压之后找到应用程序打开就可以开始使用。 2、下载安装手机模拟器(推荐雷电模拟器) 这里的模拟器是当作手机使用,当然你可以通过连接
阅读全文
posted @
2021-07-13 23:16
CJTARRR
阅读(958)
推荐(0) 编辑
判断代理ip是否可用
摘要:from concurrent.futures import ThreadPoolExecutor, as_completedimport socket # 判断ip_port是否能够连接上def try_connection(ip_port): s = socket.socket() # 等待最大
阅读全文
posted @
2021-07-13 13:38
CJTARRR
阅读(330)
推荐(0) 编辑
解决selenium控制webdriver总是被网站检测的问题
摘要:1、下载js文件 进入https://github.com/CreditTone/goniub 下载压缩包,解压==》src==》main==》resources==》stealth.js 或者 进入https://github.com/kingname/stealth.min.js 直接下载ste
阅读全文
posted @
2021-07-13 13:35
CJTARRR
阅读(487)
推荐(0) 编辑
redis安装(ubuntu)
摘要:redis安装(ubuntu) 1、下载 wget https://download.redis.io/releases/redis-3.2.8.tar.gz 2、解压 tar -zxvf redis-3.2.8.tar.gz 3、复制,放到usr/local目录下 sudo mv .redis-3
阅读全文
posted @
2021-07-06 16:37
CJTARRR
阅读(88)
推荐(0) 编辑