[python] selenium自动化

1.启动

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')
browser.maximize_window()  #浏览器最大化

1.1无界面Headless方式启动

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys

chrome_options = webdriver.ChromeOptions()
# 使用headless无界面浏览器模式
chrome_options.add_argument('--headless') //增加无界面选项
chrome_options.add_argument('--disable-gpu') //如果不加这个选项，有时定位会出现问题

# 启动浏览器，获取网页源代码
browser = webdriver.Chrome(chrome_options=chrome_options)
mainUrl = "https://www.taobao.com/"
browser.get(mainUrl)
print(f"browser text = {browser.page_source}")
browser.quit()

1.2加载配置启动

Selenium操作浏览器是不加载任何配置的，下面是关于加载Chrome配置的方法：

用Chrome地址栏输入chrome://version/，查看自己的“个人资料路径”，然后在浏览器启动时，调用这个配置文件，代码如下：

#coding=utf-8
from selenium import webdriver
option = webdriver.ChromeOptions()
option.add_argument('--user-data-dir=C:\Users\Administrator\AppData\Local\Google\Chrome\User Data') #设置成用户自己的数据目录
driver=webdriver.Chrome(chrome_options=option)

2.1元素定位

id定位：find_element_by_id()
name定位：find_element_by_name()
class定位：find_element_by_class_name()
link定位：find_element_by_link_text()
partial link定位：find_element_by_partial_link_text()
tag定位：find_element_by_tag_name()
xpath定位：find_element_by_xpath()
css定位：find_element_by_css_selector()

//*[text()=" ' + tmp + ' "]

//*[text()='text']

//*[contains(text(),'text')]

//*[@id='text']

2.3selenium三种等待方式

有时候为了保证脚本运行的稳定性，需要脚本中添加等待时间。

2.3.1 强制等待

第一种也是最简单粗暴的一种办法就是强制等待sleep(xx)，需要引入“time”模块，这种叫强制等待，不管你浏览器是否加载完了，程序都得等待3秒，3秒一到，继续执行下面的代码，作为调试很有用，有时候也可以在代码里这样等待，不过不建议总用这种等待方式，太死板，严重影响程序执行速度。

# -*- coding: utf-8 -*-
from selenium import webdriver
import time

driver = webdriver.Firefox()
driver.get('http://baidu.com')

time.sleep(3)  # 强制等待3秒再执行下一步

print(driver.current_url)
driver.quit()

2.3.2 隐性等待

第二种办法叫隐性等待，通过添加 implicitly_wait() 方法就可以方便的实现智能等待；implicitly_wait(30) 的用法应该比 time.sleep() 更智能，后者只能选择一个固定的时间的等待，前者可以在一个时间范围内智能的等待。

# -*- coding: utf-8 -*-
from selenium import webdriver

driver = webdriver.Firefox()
driver.implicitly_wait(30)  # 隐性等待，最长等30秒
driver.get('http://baidu.com')

print(driver.current_url)
driver.quit()

隐形等待是设置了一个最长等待时间，如果在规定时间内网页加载完成，则执行下一步，否则一直等到时间截止，然后执行下一步。注意这里有一个弊端，那就是程序会一直等待整个页面加载完成，也就是一般情况下你看到浏览器标签栏那个小圈不再转，才会执行下一步，但有时候页面想要的元素早就在加载完成了，但是因为个别js之类的东西特别慢，我仍得等到页面全部完成才能执行下一步，我想等我要的元素出来之后就下一步怎么办？有办法，这就要看selenium提供的另一种等待方式——显性等待wait了。
需要特别说明的是：隐性等待对整个driver的周期都起作用，所以只要设置一次即可，我曾看到有人把隐性等待当成了sleep在用，走哪儿都来一下…

转载：https://www.jianshu.com/p/1531e12f8852

posted @ 2019-07-13 21:14 Moke丶青阅读(134) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Moke丶青

[python] selenium自动化

公告