Selenium库简介
Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,这种抓取方式十分有效。
基本使用示例:
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait def main(args): #打开Chrome浏览器 browser = webdriver.Chrome() try: #浏览器跳转到百度 browser.get('https://www.baidu.com') #获取当前页面id为kw的元素,kw为输入框 input = browser.find_element_by_id('kw') #输入python input.send_keys('Python') #回车 input.send_keys(Keys.ENTER) #设置最长等待时间 wait = WebDriverWait(browser,10) #如果在等待时间内id为content_left的元素没有出现则抛出加时异常 wait.until(EC.presence_of_element_located((By.ID,'content_left'))) print(browser.current_url) print(browser.get_cookies()) print(browser.page_source) finally: browser.close() return 0 if __name__ == '__main__': import sys sys.exit(main(sys.argv))
下面详细介绍Selenium的用法。
from selenium import webdriver
browser = webdriver.Chrome()
browser = webdriver.Firefox()
#浏览器对象初始化
browser.get('https://www.taobao.com')
#用get()方法访问百度
print(browser.page_source)
#输出淘宝页面的源代码
q = browser.find_element_by_id('q')
#获得源代码的q节点
q = browser.find_element_by_css_selector('#q')
#用CSS选择器获取
q = browser.find_element_by_xpath('//*[@id="q"]')
#用XPath获取
#获取的结果皆为WebElement类型
这里列出其它获取单个节点的方法:
find_element_by_name
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
from selenium.webdriver.common.by import By
q = browser.find_element(By.ID,'q')
#也可以这样获取
lis = browser.find_elements_by_css_selector('.service-bd li')
#获取多个节点,element后多了个s
q.send_keys('少女歌剧')
#输入文字
button = browser.find_element_by_class_name('btn-search')
button.click()
#点击搜索按钮
browser.get("https://www.zhihu.com/explore")
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
#将进度条拉到最下
browser.execute_script('alert("To Bottom")')
#弹出alert提示框
print(q.get_attribute('class'))
#获取节点属性
print(q.text)
#获取文本
print(q.id)
#获取id
browser.switch_to.frame('iframeResult')
#切换Frame
from selenium.webdriver.support.ui import WebDriverWait
wait = WebDriverWait(browser,10)
from selenium.webdriver.support import expected_conditions as EC
#设置最长等待时间
input = wait.until(EC.presence_of_element_located((By.ID,'q')))
#如果id为q的节点没有出现则抛出EC异常
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'.btn-search')))
#不可点击则抛出异常
browser.back()
#后退
browser.forward()
#前进
print(browser.get_cookies())
#输出cookie
cookie = {
'name':'name',
'domain':'www.zhihu.com',
'value':'germey'
}
browser.add_cookie(cookie)
#添加cookie
browser.delete_all_cookies()
#删除所有cookie
browser.execute_script('window.open()')
#开启一个选项卡
browser.switch_to_window(browser.window_handles[1])
#切换到第二个选项卡
browser.get('https://www.baidu.com')
#在第二个选项卡打开一个新页面
browser.close()
#关闭浏览器