Selenium+Chrome+PhantomJS 爬取淘宝

https://github.com/factsbenchmarks/taobao-jingdong

一简单铺垫

　　Selenium负责驱动浏览器与python对接

　　PhantomJS负责渲染解析JavaScript

二函数

　　单独一个函数，传一个参数页码，实现跳转到该指定页面的功能。

　　获取某页码内的信息，返回字典格式。将字典格式的数据，保存到数据库。这两个功能，可以单独写两个函数。即插即用，没问题。

三 selenium在最新的版本中并不支持PhantomJS，推荐headless Chrome。

　　参考文件：

　　https://developers.google.cn/web/updates/2017/04/headless-chrome

　　https://www.cnblogs.com/zhuxiaoxi/p/8425686.html

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("https://cnblogs.com/")

posted @ 2018-04-15 17:27 骑者赶路阅读(286) 评论(0) 编辑收藏举报

刷新页面返回顶部

Selenium+Chrome+PhantomJS 爬取淘宝

公告