爬虫(三)通过Selenium + Headless Chrome爬取动态网页
一、Selenium
Selenium是一个用于Web应用程序测试的工具,它可以在各种浏览器中运行,包括Chrome,Safari,Firefox 等主流界面式浏览器。
我们可以直接用pip install selenium来进行安装。
中文翻译文档:https://selenium-python-zh.readthedocs.io/en/latest/index.html
官方文档:https://selenium-python.readthedocs.io/
二、Headless Chrome
Headless Chrome是Chrome浏览器提供的无界面形态,可以在不打开浏览器的前提下,使用所有 Chrome 支持的特性运行你的程序。相比于现代浏览器,Headless Chrome 更加方便测试 web 应用,获得网站的截图,做爬虫抓取信息等。相比于出道较早的 PhantomJS,SlimerJS 等,Headless Chrome 则更加贴近浏览器环境。
我们可以在http://chromedriver.chromium.org/(此网站需要FQ)或者http://chromedriver.storage.googleapis.com/index.html下载对应Chrome浏览器版本的chrome driver。
需要注意的是mac和linux环境要求chrome版本是59+,而windows版本的chrome要求是60+。下载成后把chromedriver.exe复制到Python安装路径下的Scripts目录中。
更详细的资料可以查看Headless Chrome官方文档。
三、使用Selenium + Headless Chrome
实例一:初步使用
from selenium import webdriver chrome_options = webdriver.ChromeOptions() #设置无界面模式 chrome_options.add_argument("--headless") #禁用gpu chrome_options.add_argument("--disable-gpu") driver = webdriver.Chrome(chrome_options=chrome_options) driver.get('https://www.baidu.com/') print('打开浏览器') print(driver.title) driver.find_element_by_id('kw').send_keys('测试') print('关闭') driver.quit() print('测试完成')
实例二:模拟在淘宝上搜索
from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument("--headless") chrome_options.add_argument("--disable-gpu") browser = webdriver.Chrome(options=chrome_options) browser.get("http://www.taobao.com") input_str = browser.find_element_by_id('q') #在搜索栏输入字符 input_str.send_keys("衬衣") #等待一秒 browser.implicitly_wait(1) #清空搜索栏 input_str.clear() input_str.send_keys("裤子") #寻找搜索按钮 button = browser.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button') button.click() #退出 browser.quit()
实例三:爬取包含Ajax的动态网页数据
from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument("--headless") chrome_options.add_argument("--disable-gpu") driver = webdriver.Chrome(chrome_options=chrome_options) driver.get("http://pythonscraping.com/pages/javascript/ajaxDemo.html") # driver.page_source driver.implicitly_wait(3) print(driver.find_element_by_id("content").text) driver.close()
注意driver.quit()是退出驱动并关闭所有窗口,而driver.close()是关闭当前窗口。当只有一个窗口时,两者结果是一样的。