Sweety

Practice makes perfect

导航

淘宝爬虫(Selenium)

Posted on 2017-10-14 16:17  蓝空  阅读(379)  评论(0编辑  收藏  举报

相关介绍

淘宝的整个页面数据确实也是通过Ajax获取的,但是这些 Ajax 接口参数比较复杂,可能会包含加密密钥等参数,所以我们如果想自己构造 Ajax 参数是比较困难的,对于这种页面我们最方便快捷的抓取方法就是通过 Selenium,本节我们就来用 Selenium 来模拟浏览器操作,抓取淘宝的商品信息,并将结果保存到 MongoDB。

目标

本节我们要利用 Selenium 抓取淘宝商品并用 PyQuery 解析得到商品的图片、名称、价格、购买人数、店铺名称、店铺所在地信息,并将其保存到MongoDB。

准备工作

本节首先以 Chrome 为例来讲解 Selenium 的用法,在本节开始之前请确保已经正确安装好了 Chrome 浏览器并配置好了 ChromeDriver,另外还需要正确安装好 Python 的 Selenium 库,最后还对接了 PhantomJS 和 Firefox,请确保安装好了 PhantomJS 和 Firefox 并配置好了 GeckoDriver。

详细介绍网址

我的GitHub项目链接