测试selenium
文章目录
1.安装工作
安装过程可以参考:ChromeDriver 的安装 和Selenium 的安装
2.基本使用
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.support.wait import WebDriverWait
browser = webdriver.Chrome()
try:
browser.get('https://www.baidu.com')
my_input = browser.find_element_by_id('kw')
my_input.send_keys('Python')
my_input.send_keys(Keys.ENTER)
wait = WebDriverWait(browser, 10)
wait.until(ec.presence_of_element_located((By.ID, 'content_left')))
print(browser.current_url)
print(browser.get_cookies())
print(browser.page_source)
finally:
browser.close()
3.声明浏览器对象
from selenium import webdriver
browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.Safari()
4.访问页面
from selenium import webdriver
browser = webdriver.Chrome()
#访问淘宝
browser.get('https://www.taobao.com')
#获取网页的源代码
print(browser.page_source)
browser.close()
5.查找节点
5.1单节点
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element_by_id('q')
input_second = browser.find_element_by_css_selector('#q')
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first) # 结果为WebElement类型
print(input_second)
print(input_third)
browser.close()
获取单个节点的方法 |
---|
find_element_by_id |
find_element_by_name |
find_element_by_xpath |
find_element_by_link_text |
find_element_by_partial_link_text |
find_element_by_tag_name |
find_element_by_class_name |
find_element_by_css_selector |
find_element (查找方式 By,值)
from selenium import webdriver
from selenium.webdriver.common.by import By
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element(By.ID, 'q')
print(input_first)
browser.close()
5.2多节点
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
#注意,在这个方法的名称中,element 多了一个 s,注意区分
lis = browser.find_elements_by_css_selector('.service-bd li')
print(lis) # 结果为列表类型
browser.close()
多节点方法 |
---|
find_elements_by_id |
find_elements_by_name |
find_elements_by_xpath |
find_elements_by_link_text |
find_elements_by_partial_link_text |
find_elements_by_tag_name |
find_elements_by_class_name |
find_elements_by_css_selector |
find_elements (查找方式 By,值)->列表
lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')
6.节点交互
Selenium 可以驱动浏览器来执行一些操作,或者说可以让浏览器模拟执行一些动作。比较常见的用法有:输入文字时用 send_keys 方法,清空文字时用 clear 方法,点击按钮时用 click 方法。示例如下:
from selenium import webdriver
import time
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
my_input = browser.find_element_by_id('q')
my_input.send_keys('iPhone')
time.sleep(1)
my_input.clear()
my_input.send_keys('iPad')
button = browser.find_element_by_class_name('btn-search')
button.click()
7.动作链
在上面的实例中,一些交互动作都是针对某个节点执行的.比如,对于输入框,我们调用它的输入文字和清空文字方法,对于按钮,我们调用它的点击方法.其实,还有另外一些操作,它们没有特定的执行对象,比如鼠标拖拽,键盘按键等,这些动作用另一种方式来执行,那就是动作链
# 实现一个节点的拖拽操作,将某个节点从一处拖拽到另外一处
from selenium import webdriver
from selenium.webdriver import ActionChains
browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
target = browser.find_element_by_css_selector('#droppable')
#声明ActionChains对象
actions = ActionChains(browser)
#调用drag_and_drop
actions.drag_and_drop(source, target)
#执行动作
actions.perform()
结果如图所示:
拖拽前页面
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-inokJorl-1629022716843)(https://s0.lgstatic.com/i/image3/M01/7D/12/Cgq2xl59oBaAebZXAACbaBgWl4k530.png)]
拖拽后页面
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e9gO2h8O-1629022716846)(https://s0.lgstatic.com/i/image3/M01/03/FC/Ciqah159oBeAZICwAACKn0bkfog611.png)]
更多的动作链操作可以参考官方文档的动作链介绍:动作链操作官方文档。
8.执行JavaScript
Selenium API 并没有提供实现某些操作的方法,比如,下拉进度条.但它可以直接模拟运行 JavaScript.此时使用 execute_script 方法即可实现,代码如下:
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
# 将进度条下拉到最底部
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
# 弹出 alert 提示框
browser.execute_script('alert("To Bottom")')
9.获取节点信息
from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://dynamic2.scrape.center/'
browser.get(url)
# 选中节点
logo = browser.find_element_by_class_name('logo-image')
print(logo)
#get_attribute获取src属性
print(logo.get_attribute('src'))
# 选中节点
my_input = browser.find_element_by_class_name('logo-title')
print(my_input.text) #获取文本
print(my_input.id) #获取id
print(my_input.location)# 获取位置
print(my_input.tag_name) # 获取标签名
print(my_input.size)# 获取大小
10.切换 Frame
1.switch_to.frmae()
2.switch_to.parent_frame()
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
try:
logo = browser.find_element_by_class_name('logo')
except NoSuchElementException:
print('NO LOGO')
browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name('logo')
print(logo)
print(logo.text)
11.延时等待
1.隐式等待
隐式等待可以在我们查找节点而节点并没有立即出现的时候,等待一段时间再查找 DOM,默认的时间是0
from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://dynamic2.scrape.center/')
my_input = browser.find_element_by_class_name('logo-image')
print(my_input)
2.显式等待
指定要查找的节点,然后指定一个最长等待时间.如果在规定时间内加载出来了这个节点,就返回查找的节点,如果到了规定时间依然没有加载出该节点,则抛出超时异常
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
browser = webdriver.Chrome()
browser.get('https://www.taobao.com/')
# 创建WebDriverWait对象,指定等待时间10s超过等待时间则抛出异常
wait = WebDriverWait(browser, 10)
# 判断ID为q的元素是否存在
my_input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
#判断css选择器为.btn-search 的按钮是否可点击
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
print(my_input)
print(button)
等待条件:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GKiHqMn2-1629022716848)(https://s0.lgstatic.com/i/image3/M01/04/3A/Ciqah1596FyAIAjtAAECe0Jujuw745.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dzeEcz2y-1629022716850)(https://s0.lgstatic.com/i/image3/M01/04/3A/Ciqah1596R2Af973AAEiFfxC3E4161.png)]
更多详细的等待条件的参数及用法介绍可以参考官方文档:显示等待条件官方文档
12.前进后退
平常我们使用浏览器时都有前进和后退功能,Selenium 也可以完成这个操作,它使用 back 方法后退,使用 forward 方法前进.示例如下:
import time
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.python.org/')
# 回到第 2 个页面
browser.back()
time.sleep(1)
# 前进到第 3 个页面
browser.forward()
browser.close()
13.Cookies
使用 Selenium,还可以方便地对 Cookies 进行操作,例如获取、添加、删除 Cookies 等。示例如下:
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
# 获取cookie
print(browser.get_cookies())
# 增加cookie
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})
print(browser.get_cookies())
# 删除cookie
browser.delete_all_cookies()
print(browser.get_cookies())
14.选项卡管理
在访问网页的时候,我们通常会开启多个选项卡。在 Selenium 中,我们也可以对选项卡进行操作。示例如下:
import time
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
# 新增空白标签
browser.execute_script('window.open()')
# 输出浏览器已有的选项卡
print(browser.window_handles)
# 跳转到浏览器的第二个选项卡
browser.switch_to.window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(1)
# 跳转到浏览器的第一个选项卡
browser.switch_to.window(browser.window_handles[0])
browser.get('https://python.org')
15.异常处理
from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException
browser = webdriver.Chrome()
try:
browser.get('https://www.baidu.com')
except TimeoutException:
print('Time Out')
try:
browser.find_element_by_id('hello')
except NoSuchElementException:
print('No Element')
finally:
browser.close()
关于更多的异常类,可以参考官方文档:selenium异常类
16.反屏蔽
现在很多网站都加上了对 Selenium 的检测,检测基本原理是检测当前浏览器窗口下的 window.navigator 对象是否包含 webdriver 这个属性.因为在正常使用浏览器的情况下,这个属性是 undefined,然而一旦我们使用了 Selenium,Selenium 会给 window.navigator 设置 webdriver 属性.很多网站就通过 JavaScript 判断如果 webdriver 属性存在,那就直接屏蔽
在 Selenium 中,我们可以使用 CDP(即 Chrome Devtools-Protocol,Chrome 开发工具协议)来解决这个问题,通过 CDP 我们可以实现在每个页面刚加载的时候执行 JavaScript 代码,执行的 CDP 方法叫作 Page.addScriptToEvaluateOnNewDocument,然后传入Object.defineProperty(navigator, "webdriver", {get: () => undefined})
JavaScript 代码即可,这样我们就可以在每次页面加载之前将 webdriver 属性置空了.另外我们还可以加入几个选项来隐藏 WebDriver 提示条和自动化扩展信息,代码实现如下
from selenium import webdriver
from selenium.webdriver import ChromeOptions
option = ChromeOptions()
# 隐藏提示条
option.add_experimental_option('excludeSwitches', ['enable-automation'])
# 隐藏自动化扩展信息
option.add_experimental_option('useAutomationExtension', False)
browser = webdriver.Chrome(options=option)
# 执行cdp的addScriptToEvaluateOnNewDocument方法
# 将window.navigator对象webdriver设置为空
browser.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {
'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'
})
browser.get('https://antispider1.scrape.center/')
17.无头模式
from selenium import webdriver
from selenium.webdriver import ChromeOptions
option = ChromeOptions()
#添加无头参数
option.add_argument('--headless')
browser = webdriver.Chrome(options=option)
#无头模式需要设置窗口
browser.set_window_size(1366, 768)
browser.get('https://www.baidu.com')
browser.get_screenshot_as_file('preview.png')
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix