Selenium+Chrome+PhantomJS 爬取淘宝
https://github.com/factsbenchmarks/taobao-jingdong
一 简单铺垫
Selenium负责驱动浏览器与python对接
PhantomJS负责渲染解析JavaScript
二 函数
单独一个函数,传一个参数 页码,实现跳转到该指定页面的功能。
获取某页码内的信息,返回字典格式。将字典格式的数据,保存到数据库。这两个功能,可以单独写两个函数。即插即用,没问题。
三 selenium在最新的版本中并不支持PhantomJS,推荐headless Chrome。
参考文件:
https://developers.google.cn/web/updates/2017/04/headless-chrome
https://www.cnblogs.com/zhuxiaoxi/p/8425686.html
from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu') driver = webdriver.Chrome(chrome_options=chrome_options) driver.get("https://cnblogs.com/")