动态爬虫——selenium2搭载phantomjs入门范例
这是我学习爬虫比较深入的一步了,大部分的网页抓取用urllib2都可以搞定,但是涉及到JavaScript的时候,urlopen就完全傻逼了,所以不得不用模拟浏览器,方法也有很多,此处我采用的是selenium2+phantomjs,原因在于:
selenium2支持所有主流的浏览器和phantomjs这些无界面的浏览器,我开始打算用Chrome,但是发现需要安装一个什么Chrome驱动,于是就弃用了,选择phantomjs,而且这个名字听起来也比较洋气。
上网查了很多资料,发现网上selenium2+phantomjs的使用方法的中文资源十分欠缺,不得不阅读晦涩的官方文档,所以这里记下目前已经实现的操作,再加上一些我个人遇到的问题以及对应的解决方案。
背景知识:
phantomjs是一个基于webkit的没有界面的浏览器,所以运行起来比完整的浏览器要高效。
selenium的英文原意是Se,化学元素,这里是一个测试web应用的工具,目前是2.42.1版本,和1版的区别在于2.0+中把WebDrive整合在了一起。
selenium2支持的Python版本:2.7, 3.2, 3.3 and 3.4
如果需要进行远程操作的话,就需要额外安装selenium server
安装:
先装selenium2,哪种方式装都可以,我一般都是直接下载压缩包,然后用python setup.py install命令来装,selenium 2.42.1的下载地址:https://pypi.python.org/pypi/selenium/2.42.1
然后下载phantomjs,https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-1.9.7-windows.zip,解压后可以看到一个phantomjs.exe的文件
范例1:
#coding=utf-8 from selenium import webdriver driver = webdriver.PhantomJS(executable_path='C:\Users\Gentlyguitar\Desktop\phantomjs-1.9.7-windows\phantomjs.exe') driver.get("http://duckduckgo.com/") driver.find_element_by_id('search_form_input_homepage').send_keys("Nirvana") driver.find_element_by_id("search_button_homepage").click() print driver.current_url driver.quit()
其中的executable_path就是刚才phantomjs.exe的路径,运行结果:
https://duckduckgo.com/?q=Nirvana
Walk through of the example:
值得一提的是:
get方法会一直等到页面被完全加载,然后才会继续程序
但是对于ajax: It’s worth noting that if your page uses a lot of AJAX on load then WebDriver may not know when it has completely loaded
send_keys就是填充input
范例2:
#coding=utf-8 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver import ActionChains import time import sys driver = webdriver.PhantomJS(executable_path='C:\Users\Gentlyguitar\Desktop\phantomjs-1.9.7-windows\phantomjs.exe') driver.get("http://www.zhihu.com/#signin") #driver.find_element_by_name('email').send_keys('your email') driver.find_element_by_xpath('//input[@name="password"]').send_keys('your password') #driver.find_element_by_xpath('//input[@name="password"]').send_keys(Keys.RETURN) time.sleep(2) driver.get_screenshot_as_file('show.png') #driver.find_element_by_xpath('//button[@class="sign-button"]').click() driver.find_element_by_xpath('//form[@class="zu-side-login-box"]').submit() try: dr=WebDriverWait(driver,5) dr.until(lambda the_driver:the_driver.find_element_by_xpath('//a[@class="zu-top-nav-userinfo "]').is_displayed()) except: print '登录失败' sys.exit(0) driver.get_screenshot_as_file('show.png') #user=driver.find_element_by_class_name('zu-top-nav-userinfo ') #webdriver.ActionChains(driver).move_to_element(user).perform() #移动鼠标到我的用户名 loadmore=driver.find_element_by_xpath('//a[@id="zh-load-more"]') actions = ActionChains(driver) actions.move_to_element(loadmore) actions.click(loadmore) actions.perform() time.sleep(2) driver.get_screenshot_as_file('show.png') print driver.current_url print driver.page_source driver.quit()
这个程序完成的是,登陆知乎,然后能自动点击页面下方的“更多”,以载入更多的内容
Walk through of the example:
from selenium.webdriver.common.keys import Keys,keys这个类就是键盘上的键,文中的send_keys(Keys.RETURN)就是按一个回车
from selenium.webdriver.support.ui import WebDriverWait是为了后面一个等待的操作
from selenium.webdriver import ActionChains是导入一个动作的类,这句话的写法,我找了很久
find_element推荐使用Xpath的方法,原因在于:优雅、通用、易学
Xpath表达式写法教程:http://www.ruanyifeng.com/blog/2009/07/xpath_path_expressions.html
值得注意的是,避免选择value带有空格的属性,譬如class = "country name"这种,不然会报错,大概compound class之类的错
检查用户密码是否输入正确的方法就是在填入后截屏看看
想要截屏,这么一句话就行:
driver.get_screenshot_as_file('show.png')
但是,这里的截屏是不带滚动条的,就是给你把整个页面全部照下来
try: dr=WebDriverWait(driver,5) dr.until(lambda the_driver:the_driver.find_element_by_xpath('//a[@class="zu-top-nav-userinfo "]').is_displayed()) except: print '登录失败' sys.exit(0)
是用来通过检查某个元素是否被加载来检查是否登录成功,我认为当个黑盒子用就可以了。其中5的解释:5秒内每隔500毫秒扫描1次页面变化,直到指定的元素
对于表单的提交,即可以选择登录按钮然后使用click方法,也可以选择表单然后使用submit方法,后者能应付没有登录按钮的情况,所以推荐使用submit()
对于一次点击,既可以使用click(),也可以使用一连串的action来实现,如文中:
loadmore=driver.find_element_by_xpath('//a[@id="zh-load-more"]') actions = ActionChains(driver) actions.move_to_element(loadmore) actions.click(loadmore) actions.perform()
这5句话其实就相当于一句话,find element然后click,但是action的适用范围更广,譬如在这个例子中,要点击的是一个a标签对象,我不知道为什么直接用click不行,不起作用
print driver.current_url print driver.page_source
即打印网页的两个属性:url和source
总结:除了能解决动态页面的问题以外,用selenium用来模拟登陆也比urllib2简单得多。
参考文献:
http://selenium-python.readthedocs.org/getting-started.html
http://www.cnblogs.com/paisen/p/3310067.html