Python 爬虫类库 Selenium 的常用方法介绍
Selenium 简介
Selenium 是一个 Web 的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是 Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括 PhantomJS 这些无界面的浏览器)。
Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。
Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。
先下载 selenium webdriver geckodriver.exe
,下载好后放到 python 目录里面。
Firefox 的目录也要添加到环境变量中。
Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互(发送文本、点击等),以及执行其他动作来运行网络爬虫。
Selenium 快速入门
# -*- coding:utf-8 -*- from selenium import webdriver # 要想调用键盘按键操作需要引入 keys 包 from selenium.webdriver.common.keys import Keys # 创建浏览器对象 driver = webdriver.Firefox() driver.get("http://www.baidu.com") # 打印页面标题“百度一下你就知道” print(driver.title) # 生成当前页面快照 driver.save_screenshot("baidu.png") # 是百度搜索框,输入字符串“微博”,跳转到搜索页面 driver.find_element_by_id("kw").send_keys(u"微博") # 是百度搜索按钮,click() 是模拟点击 driver.find_element_by_id("su").click() # 获取新的页面快照 driver.save_screenshot(u"screenshot.png") # 打印网页渲染后的源代码 print(driver.page_source) # 获取当前页面 Cookie print(driver.get_cookies()) # ctrl+a 全选输入框内容 driver.find_element_by_id("kw").send_keys(Keys.CONTROL, 'a') # ctrl+x 剪切输入框内容 driver.find_element_by_id("kw").send_keys(Keys.CONTROL, 'x') # 输入框重新输入内容 driver.find_element_by_id("kw").send_keys("test") # 模拟 Enter 回车键 driver.find_element_by_id("su").send_keys(Keys.RETURN) # 清除输入框内容 driver.find_element_by_id("kw").clear() # 生成新的页面快照 driver.save_screenshot("test.png") # 获取当前 url print(driver.current_url) # 关闭当前页面,如果只有一个页面,会关闭浏览器 driver.close() # 关闭浏览器 driver.quit()
1、页面操作
假如有下面的输入框:
<input type="text" name="user-name" id="passwd-id" />
查找方法如下:
# 获取 id 标签值 element = driver.find_element_by_id("passwd-id") # 获取 name 标签值 element = driver.find_element_by_name("user-name") # 获取标签名值 element = driver.find_elements_by_tag_name("input") # 也可以通过 XPath 来匹配 element = driver.find_element_by_xpath("//input[@]")
2、定位元素
# 通过 Id 定位目标元素 driver.find_element_by_id('i1') # 通过 className 定位目标元素,返回一个对象 driver.find_element_by_class_name('c1') # 通过 name 属性定位目标元素,返回一个对象 driver.find_element_by_name('n1') # 通过 Xpath 定位目标元素,返回一个对象 driver.find_element_by_xpath('//*[@id="i1"]') # 通过 css Selector 定位目标元素,返回一个对象 driver.find_element_by_css_selector('#i1') # 通过标签名称定位,返回一个对象 driver.find_element_by_tag_name('input') # 通过标签中的文本查找元素,返回一个对象 driver.find_element_by_link_text('登录')
一次查找多个元素(这些方法会返回一个 list 列表):
# 通过 className 定位目标元素,返回一个集合 driver.find_elements_by_class_name('c1') # 通过 name 属性定位目标元素,返回一个集合 driver.find_elements_by_name('n1') # 通过 Xpath 定位目标元素,返回一个集合 driver.find_elements_by_xpath('//*[@id="i1"]') # 通过 Css Selector 定位目标元素,返回一个集合 driver.find_elements_by_css_selector('#i1') # 通过标签名称定位,返回一个集合 driver.find_elements_by_tag_name('input') # 通过标签中的文本查找元素,返回一个集合 driver.find_element_by_link_text('登录') # 通过标签中文本的模糊匹配查找,返回一个集合 find_elements_by_partial_link_text("订单")
3、鼠标动作
# -*- coding:utf-8 -*- from selenium import webdriver # 要想调用键盘按键操作需要引入 keys 包 from selenium.webdriver.common.keys import Keys from selenium.webdriver import ActionChains # 创建浏览器对象 driver = webdriver.Firefox() # 打开页面 driver.get("http://www.baidu.com") # 鼠标移动到某处 action1 = driver.find_element_by_id("su") ActionChains(driver).move_to_element(action1).perform() # 鼠标移动到某处单击 action2 = driver.find_element_by_id("su") ActionChains(driver).move_to_element(action2).click(action2).perform() # 鼠标移动到某处双击 action3 = driver.find_element_by_id("su") ActionChains(driver).move_to_element(action3).double_click(action3).perform() # 鼠标移动到某处右击 action4 = driver.find_element_by_id("su") ActionChains(driver).move_to_element(action4).context_click(action4).perform()
4、Select 表单
# 导入 Select 类 from selenium.webdriver.support.ui import Select # 找到 name 的选项卡 select = Select(driver.find_element_by_name('status')) select.select_by_index(1) select.select_by_value("0") select.select_by_visible_text(u"xxx")
以上是三种选择下拉框的方式,它可以根据索引来选择,可以根据值来选择,可以根据文字来选择。注意:
index 索引从 0 开始
value 是 option 标签的一个属性值,并不是显示在下拉框中的值
visible_text 是在 option 标签文本的值,是显示在下拉框的值
全部取消方法
select.deselect_all()
5、弹窗处理
当页面出现了弹窗提示:
alert = driver.switch_to_alert()
6、页面切换
一个浏览器肯定会有很多窗口,所以我们肯定要有方法来实现窗口的切换。切换窗口的方法如下:
driver.switch_to.window("this is window name")
7、页面前进和后退
driver.forward() #前进 driver.back() # 后退
8、模拟登陆豆瓣网站
# -*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.common.keys import Keys import time driver = webdriver.Firefox() driver.get("http://www.douban.com") # 输入账号密码 driver.find_element_by_name("form_email").send_keys("158xxxxxxxx") driver.find_element_by_name("form_password").send_keys("zhxxxxxxxx") # 模拟点击登录 driver.find_element_by_xpath("//input[@]").click() # 等待3秒 time.sleep(3) # 生成登陆后快照 driver.save_screenshot(u"douban.png") driver.quit()
以上就是 Selenium 的一些常用方法。