Python爬虫——使用selenium和chrome爬取js动态加载的网页

1.使用docker镜像运行selenium+chrome环境

官方镜像仓库selenium/standalone-chrome,只支持amd64

拉取镜像

docker pull selenium/standalone-chrome:120.0

启动

docker run -d -p 4444:4444 -p 15900:5900 selenium/standalone-chrome:120.0

其他参数

docker run -d -p 4444:4444 -p 15900:5900 -e SE_NODE_MAX_SESSIONS=5 --shm-size=2g selenium/standalone-chrome:120.0

参考:https://hub.docker.com/r/selenium/standalone-chrome

访问 localhost:4444/ui 可以查看selenium的运行状态

可以使用mac自带的屏幕共享功能连接pod的vnc

输入 vnc://localhost:15900,默认密码是secret

界面

2.安装依赖

ubuntu/debian换源

sudo -s
sed -i s@/archive.ubuntu.com/@/mirrors.aliyun.com/@g /etc/apt/sources.list
apt-get update

安装pip3

apt-get install python3-pip

安装selenium和webdriver-manager

pip3 install selenium
pip3 install webdriver-manager

3.运行selenium

查看chrome和driver version

root@ced974ac3394:/# google-chrome --version
Google Chrome 120.0.6099.224 
root@ced974ac3394:/# chromedriver --version
ChromeDriver 120.0.6099.109 (3419140ab665596f21b385ce136419fde0924272-refs/branch-heads/6099@{#1483})

1.不启用chrome gui

root@ced974ac3394:/# python3
Python 3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
options = Options()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
driver.get("https://python.org")
print(driver.title)

Welcome to Python.org

exit()

参考:https://github.com/password123456/setup-selenium-with-chrome-driver-on-ubuntu_debian

2.启用chrome gui

root@fce0fc2def31:/# python3
Python 3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
options = Options()
options.add_argument('--disable-dev-shm-usage')
options.add_argument("--remote-debugging-port=9222") # 不加的话会报session not created: DevToolsActivePort file doesn't exist
options.add_argument('--no-sandbox') # 不加的话会报chrome not reachable
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

此时vnc界面会弹出浏览器

>>> driver.get("https://python.org")
>>> print(driver.title)
Welcome to Python.org

打开了python的网页

4.cloudflare人机校验

如果语言cloudflare的人机校验

1.可以尝试使用 undetected_chromedriver 这个包来代替selenium的webdriver

安装 undetected_chromedriver

pip3 install undetected_chromedriver

替换seleniuim的web driver

import undetected_chromedriver as uc

driver = uc.Chrome(headless=False,use_subprocess=False)
driver.maximize_window()
driver.get('https://nowsecure.nl')
driver.save_screenshot('nowsecure.png')

参考:https://github.com/ultrafunkamsterdam/undetected-chromedriver

如果报from session not created: This version of ChromeDriver only supports Chrome version 125

可以尝试使用125.0版本的docker镜像

docker run -d -p 4444:4444 -p 15900:5900 -e SE_NODE_MAX_SESSIONS=5 --shm-size=2g selenium/standalone-chrome:125.0

2.也可以尝试使用 DrissionPage 这个包来代替selenium的webdriver

安装DrissionPage

pip3 install DrissionPage

使用

>>> from DrissionPage import ChromiumPage
>>> page = ChromiumPage()
>>> page.get('https://dev.epicgames.com/zh-CN/home')
True

参考:自动绕过 Cloudflare 验证码 - 两条相反的方法(选择最适合您的方法)

不过无论是使用undetected_chromedriver还是DrissionPage,只能绕过cloudflare人机检验,无法绕过hcaptcha验证码,如下

5.M1芯片环境运行selenium docker

由于selenium/standalone-chrome镜像只支持amd64架构,如果是M1芯片的话,需要使用支持arm64架构的镜像 seleniarm/standalone-chromium

拉取镜像

docker pull seleniarm/standalone-chromium:120.0

启动,需要指定运行平台是linux/arm64

docker run -d -p 4444:4444 -p 15900:5900 -e SE_NODE_MAX_SESSIONS=5 --shm-size=2g --platform linux/arm64 seleniarm/standalone-chrome:120.0

1.M1运行selenium webdriver

seleniarm/standalone-chromium镜像中的浏览器是chromium,和chrome浏览器一些区别,需要指定webdriver的路径为/usr/bin/chromedriver

root@fce0fc2def31:/# python3
Python 3.10.12 (main, Nov 20 2023, 15:14:05) [GCC 11.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
options = Options()
options.add_argument('--disable-dev-shm-usage')
options.add_argument("--remote-debugging-port=9222") # 不加的话会报session not created: DevToolsActivePort file doesn't exist
options.add_argument('--no-sandbox') # 不加的话会报chrome not reachable
driver = webdriver.Chrome(service=Service("/usr/bin/chromedriver"), options=options)

2.M1运行undetected_chromedriver

如果使用m1芯片想 undetected_chromedriver 来绕过cloudflare的人机校验的话

import undetected_chromedriver as uc

driver = uc.Chrome(driver_executable_path="/usr/bin/chromedriver",headless=True,use_subprocess=False)
driver.maximize_window()
driver.get('https://nowsecure.nl')
driver.save_screenshot('nowsecure.png')

默认的下载路径在/root/Downloads

6.验证码

业界常用的验证码服务有hCaptcha和reCaptcha等

1.hCaptcha

hCaptcha根据面向用户不同可以分成普通版,隐形版,企业版等;根据难度不同可以分成Easy,Medium,Difficult版本等,具体的Demo可以参考 http://www.52spider.com/captcha/hcaptcha-enterprise/

要想通过hCaptcha验证码,如果不想使用验证码识别平台的话,可以使用其提供的视障账号

1.视障账号

hCaptcha的accessibility,这是hCaptcha提供用于视障人员用于跳过验证码的功能

https://www.hcaptcha.com/accessibility

通过注册hCaptcha视障账号 ,可以在如下页面中通过点击set cookie按钮来设置一个cookie用于跳过验证码

https://dashboard.hcaptcha.com/welcome_accessibility

但是set cookie不是所有情况下都能成功的,如果你的环境被检测是机器人,或者ip被封,set cookie的时候则有可能报401,

报错是:无法发布Cookie。如果此问题继续发生,请发送电子邮件至support@hcaptcha.com

参考:如何绕过烦人的 hCaptcha & Cloudflare Captcha

2.reCaptcha

 

7.验证码识别平台

可以尝试使用验证码识别平台来识别验证码,比如 2captcha服务,类似的服务还有yescaptchaNopeCHA

这类服务一般都提供API和浏览器插件2种方式用于识别验证码,API用于无头浏览器下获取验证码的captcha_response,填入后再点击检测后来提交验证码;而浏览器插件则可以在浏览器中实现自动点击验证码

1.浏览器插件

使用最为简单,只需要安装其提供的验证码识别插件即可,具体每个平台的识别准确率根据验证码难度的不同会不相同

具体使用的时候,可以配合selenium一起使用

1.2captcha

2captcha可以通过作为员工来点击验证码来赚取额度进行测试

2captcha插件 for hCaptcha:https://chromewebstore.google.com/detail/hcaptcha-solver-auto-capt/imgmoeegfjhhmljmphfkjeibkiffcdgl

2captcha插件 for reCaptcha:https://chromewebstore.google.com/detail/recaptcha-solver-auto-cap/infdcenbdoibcacogknkjleclhnjdmfh

经测试2captcha for hCaptcha在某些网站无法工作,对于不同难度的验证码识别正确率暂时未知

参考:Selenium验证码和reCAPTCHA绕过

2.yescaptcha

貌似是国内开发运行的验证码识别平台,注册送免费额度

yescaptcha插件:https://chromewebstore.google.com/detail/yescaptcha-%E4%BA%BA%E6%9C%BA%E5%8A%A9%E6%89%8B/jiofmdifioeejeilfkpegipdjiopiekl?hl=zh-CN

经测试yescaptcha可以正常点击hCaptcha验证码,不过对于hCaptcha difficult难度的hCaptcha验证码有时能点击正确,但是也有较高概率点错

3.nopecaptcha

nopecapcha验证码识别平台,每24小时刷新100免费额度

nopecaptcha插件:https://chromewebstore.google.com/detail/nopecha-captcha-solver/dknlfmjaanfblgfdfebhijalfmhmjjjo

经测试yescaptcha可以正常点击hCaptcha验证码,不过对于hCaptcha difficult难度的hCaptcha验证码错误率离谱,没见过能正确点对的时候

4.capsolver

https://www.capsolver.com/zh

通过公司邮箱注册的话可以领取免费额度,没进行测试,不知道效果如何

2.API

如果想要使用无头浏览器(比较节省系统资源),可以尝试使用验证码平台提供的API,比如2captcha其支持多种验证码类型,比如reCaptcha,hCaptcha等

API文档可以参考:https://2captcha.com/api-docs

SDK文档可以参考:https://github.com/2captcha/2captcha-python

比如我们要识别hCaptcha的验证码,可以查看2Captcha的API v2下面hCaptcha对应的文档 https://2captcha.com/api-docs/hcaptcha

提交的任务提交API将验证码提交上来 https://api.2captcha.com/createTask

注意websiteURL字段如果验证码是通过iframe弹出的话,需要填写iframe的URL

{
    "clientKey":"YOUR_API_KEY",
    "task": {
        "type":"HCaptchaTaskProxyless",
        "websiteURL":"https://2captcha.com/demo/hcaptcha",
        "websiteKey":"f7de0da3-3303-44e8-ab48-fa32ff8ccc7b"
    }
}

如下

然后去 https://2captcha.com/zh/enterpage 的 上次提交的验证码 页面查看验证码识别的进度

这个验证码识别成功

返回的答案如下,其中token是验证码识别的结果,而respKey这个额外的返回值是部分网站需要的

{
        "token": "P1_eyJ0eXAiOiJKV...1LDq89KyJ5A",
        "respKey": "E0_eyJ0eXAiOiJK...y2w5_YbP8PGuJBBo",
        "userAgent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.5614.0 Safari/537.36"
    }

如果网站只需要token的话,,这里只需要找到data-hcaptcha-response的属性,将验证码的结尾添加到这个属性的value位置,最后点击check按钮来提交验证码

如果网站同时需要token和respKey的话,这里有些网站会将token和respKey放到一个json中并将其转成jwt格式后调用login接口,一起提交上来

参考:HCaptcha 的模拟点击破解教程来了!

为了好玩而编写机器人 - 绕过 hCaptcha

hcapcha js混淆可以参考:关于hcaptcha (vm wasm ob)三合一

posted @ 2015-07-21 08:22  tonglin0325  阅读(712)  评论(0编辑  收藏  举报