爬虫—图形验证码获取

获取验证码图片步骤

1. 使用selenium操作谷歌浏览器,打开目标网站
2. 对目标网站进行截图,并将图片保存到本地
3. 获取验证码元素节点在屏幕上的位置,即横纵坐标
4. 使用Image库读取保存的截图
5. 使用pillow模块抠出大图中的验证码 只截取元素节点位置对应部分

导入所需库和打开目标网站

from selenium import webdriver
from selenium.webdriver.common.by import By
from PIL import Image
bro = webdriver.Chrome(executable_path='./chromedriver.exe')  # 打开浏览器
bro.get('https://www.chaojiying.com/apiuser/login/')  # 打开目标网站
bro.implicitly_wait(10)  # 隐士等待
bro.maximize_window()  # 将浏览器全屏

image

网页截图保存

bro.save_screenshot('screenshot.png')  # 网页截图,保存

获取验证码元素位置

# 根据css选择器找验证码元素
code = bro.find_element(By.CSS_SELECTOR,'body > div.wrapper_danye > div > div.content_login > div.login_form > form > div > img')
# 左上角的位置
left = code.location['x']  # 1110
top = code.location['y']  # 291
# 右下角的位置
right = code.size['width'] + left  # 1290
bottom = code.size['height'] + top  # 341

读取截图、截取验证码图片和保存验证码图片

img = Image.open('screenshot.png')  # 读取全屏截图
img = img.crop((left, top, right, bottom))  # 截取验证码图片
img.save('code.png')  # 保存图片

代码整合

from selenium import webdriver
from selenium.webdriver.common.by import By
from PIL import Image
bro = webdriver.Chrome(executable_path='./chromedriver.exe')  # 打开浏览器
bro.get('https://www.chaojiying.com/apiuser/login/')  # 打开目标网站
bro.implicitly_wait(10)  # 隐士等待
bro.maximize_window()  # 将浏览器全屏

bro.save_screenshot('screenshot.png')  # 网页截图,保存

# 根据css选择器找验证码元素
code = bro.find_element(By.CSS_SELECTOR,'body > div.wrapper_danye > div > div.content_login > div.login_form > form > div > img')
# 左上角的位置
left = code.location['x']  # 1110
top = code.location['y']  # 291
# 右下角的位置
right = code.size['width'] + left  # 1290
bottom = code.size['height'] + top  # 341

img = Image.open('screenshot.png')  # 读取全屏截图
img = img.crop((left, top, right, bottom))  # 截取验证码图片
img.save('code.png')  # 保存图片

作者:XxMa

出处:https://www.cnblogs.com/XxMa/p/17546035.html

版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

posted @   程序猿小Ma  阅读(422)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)
more_horiz
keyboard_arrow_up dark_mode palette
选择主题
点击右上角即可分享
微信分享提示