爬虫学习03常用模块
一.requests
1. requests.get(url,headers)
2.requests.post(url, headers, data)
二.urllib
from urllib import request
1.request.urlretreieve(url, filename) 对url地址内的资源
三.lxml
from lxml import etree
1.etree.HTML()
四.selenium
1.什么是selenium:selenium是一个python的第三方模块,对外提供了控制浏览器的接口,可以让浏览器完成自动化的操作.
2.环境搭建:
1.安装: pip install selenium
2.获取一款浏览器的驱动程序(谷歌)
a.谷歌浏览器驱动下载地址:http://chromedriver.storage.googleapis.com/index.html
b.下载的驱动程序必须和浏览器的版本统一,根据http://blog.csdn.net/huilan_same/article/details/51896672中提供的版本映射表进行对应