Selenium+Python Web自动化
Selenium官方网站
http://selenium-python.readthedocs.io/
配置使用环境
下载相应的浏览器驱动, Firefox 是默认的
本文以 chrome 为主 ,放在scripts目录下
ChromeDriver 官方下载地址 : 所有版本的 ChromeDriver
文档参考
官方文档 : Selenium with Python
一份简单的测试 demo
1 #coding=utf-8 2 from selenium import webdriver 3 import os 4 import time 5 # set little time stop and big time stop for viewing changes 6 little_time_stop = 1 7 big_time_stop = 2 8 # 默认广告条数 9 ads_num_require = 8 10 # 请求连接 11 req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1" 12 # 打开浏览器 13 14 browser = webdriver.Chrome() 15 # 开始请求 16 17 browser.get(req_url) 17 # 获取所有的广告 18 19 all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li') 20 # 当前广告条数 21 ads_num_current = len(all_ads_li) 22 print "Has been got %d ads" %(ads_num_current) 23 # 如果广告条数与默认不符 24 if ads_num_current < ads_num_require: 25 print "The number of ads is not enough ( current : %d require: %d)" %(ads_num_current,ads_num_require) 26 # exit() 27 # 获取顶部连接 28 i = 0 29 for ads_li in all_ads_li: 30 time.sleep(big_time_stop) 31 i = i+1 32 print "ads %d :" %i 33 try: 34 main = ads_li.find_element_by_css_selector('h3 a') 35 except: 36 print "\tError: ads %d cann't find" %(i) 37 else: 38 print "\tReady: visit ads %d" %(i) 39 main.click() 40 print "\tSucess: visit ads %d" %(i) 41 time.sleep(little_time_stop) 42 try: 43 img_link = ads_li.find_element_by_class_name('e_biyi_img') 44 except: 45 print "\tError : no img in ads %d " %(i) 46 else: 47 print "\tReady : visit img_link %d" %(i) 48 img_link.click() 49 print "\tSuccess : visit img_link %d" %(i) 50 time.sleep(little_time_stop) 51 try: 52 child_div = ads_li.find_element_by_class_name('e_biyi_childLink'); 53 except: 54 print "\tError : no child link in ads %d" %(i) 55 else: 56 try: 57 child_links = child_div.find_elements_by_css_selector('a') 58 except: 59 print "\tError : find child_links error" 60 else: 61 num_links = len(child_links) 62 print "\tSuccess : there are %d child_links" %(num_links) 63 j = 0 64 for child_a in child_links: 65 j = j + 1 66 print "\t\tReady : visit child link %d in ads %d" %(j, i) 67 child_a.click() 68 print "\t\tSuccess : visit child link %d in ads %d" %(j, i) 69 time.sleep(little_time_stop) 70 print "End and thanks for your using!" 71 # 下面代码选择取消注释 72 # 延时 73 # time.sleep(5) 74 # 关闭当前窗口 75 # browser.close() 76 # 关闭所有已经打开的窗口 77 # browser.quit()
定位操作
以下是所有定位操作的 API :
返回一个匹配元素, 即一个 WebElement 元素
find_element_by_id()
find_element_by_name()
find_element_by_class_name()
find_element_by_tag_name()
find_element_by_link_text()
find_element_by_partial_link_text()
find_element_by_xpath()
find_element_by_css_selector()
返回一个列表, 包含所有匹配的元素, 即一个 WebElement 列表
find_elements_by_id()
find_elements_by_name()
find_elements_by_class_name()
find_elements_by_tag_name()
find_elements_by_link_text()
find_elements_by_partial_link_text()
find_elements_by_xpath()
find_elements_by_css_selector()
关于 API 的具体介绍, 请参考 :
module-selenium.webdriver.chrome.webdriver
使用的时候需注意下面几点 :
- python selenium 提供了两种对象 :
WebDriver
和WebElement
这两种对象都可以使用这些 API
- 这些 API 一旦执行失败(即查找不到), 就会抛出异常
因此必须使用 try: .. except: ...
机制避免错误的行为影响程序继续进行
WebDriver
调用以上 API 进行全局定位
WebElement
调用以上 API 可以进行层级定位, 即 查找当前元素的子元素
WebDriver 的使用
开始的时候必须要有初始化一个 WebDriver
实例, 即下面的 browser
用来对浏览器进行控制以及页面的访问
# 请求连接
req_url = "http://www.haosou.com/s?ie=utf-8&shb=1&src=360sou_newhome&q=%E9%B2%9C%E8%8A%B1"
# 打开浏览器
browser = webdriver.Chrome()
# 开始请求
browser.get(req_url)
接着, 就可以使用以上 API 进行当前页面的全局查找, 比如 :
# 获取所有的广告
all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li')
WebElement 的使用
-
使用
browser.find_element_by_xx()
得到的是一个WebElement
实例
使用获得的实例调用上面的 API 即可进行层级查找 -
使用
browser.find_elements_by_xx()
得到的是一个元素是WebElement
实例的 list
通过对 list 的遍历, 即可对各个实例进行相应的操作
WebDriver 的一些常用操作
browser.curren_url
: 获取当前加载页面的 URLbrowser.close()
: 关闭当前窗口, 如果当前窗口是最后一个窗口, 浏览器将关闭browser.quit()
: 关闭所有窗口并停止 ChromeDriver 的执行-
browser.add_cookie(cookie_dict)
: 为当前会话添加 cookiebrowser.get_cookie(name)
: 得到执行 cookiebrowser.get_cookies()
: 得到所有的 cookiedriver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’, ‘secure’:True})
-
browser.delete_all_cookies()
: 删除当前会话的所有cookiebrowser.delete_cookie(name)
: 删除指定 cookie browser.back()
: 相当于浏览器的后退历史记录browser.forward()
: 相当于浏览器的前进历史记录browser.execute_script(script, *args)
: 同步执行 js 脚本browser.execute_async_script(script, *args)
: 异步执行 js 脚本browser.get(url)
: 在当前窗口加载 urlbrowser.refresh()
: 刷新当前页面browser.current_window_handle
: 当前窗口的 handle, 相当于一个指针一样的东西, 用来指向当前窗口browser.window_handles
: 当前浏览器中的已经打开的所有窗口, 是一个 listbrowser.switch_to_window(window_handle)
: 切换 window_handle 指向的窗口browser.title
: 当前页面的 titlebrowser.name
: 当前浏览器的名字
具体参照 : module-selenium.webdriver.remote.webdriver
WebElement 的一些常用操作
webEle.clear()
: 清楚元素的内容, 假如这个元素是一个文本元素webEle.click()
: 点击当前元素webEle,is_displayed()
: 当前元素是否可见webEle.is_enabled()
: 当前元素是否禁止, 比如经常会禁用一些元素的点击webEle.is_selected()
: 当前元素是否选中, 文本输入框的内容webEle.send_keys(*value)
: 向当前元素模拟键盘事件webEle.submit()
: 提交表单webEle.tag_name
: 当前元素的标签名webEle.text
: 当前元素的内容webEle.get_attribute(name)
: 获取当前元素执行属性的值