python网页爬虫--京东家电版块

双十二就要到了，浏览京东商城也浏览的比较多，突然想到写一个爬虫来爬取一些“京东家电”的数据，可能会对双十二的活动有点预见性，也挺好玩的。

1、选定爬取的模块京东商城--京东家电--家用电器--大家电

2、爬取“平板电视”这一模块的数据

我用的是火狐浏览器的HttpFox插件来查看网页的加载信息。当进入“平板电视”这一模块的时候，网页的加载信息是这样的：

打开第一个“GET”进来的网页信息，然后查看该加载的网页的“Header”信息，发现该网页是重新加载的，从“Referer”可看出该网页的新的链接：

3、打开"Referer"的链接信息，验证一下：

4、打开几个商品的链接，发现网页的URL有一定的规律，像是这样的网址：

地址中只是数字发生着变化，所以这一定有猫腻，所以进一步去观察HttpFox的信息。

下面是加载“平板电视”电视的时候，HttpFox生成的信息，找到第一条的json信息，发现了需要得到的数字：

5、将网页往下拉，可以看到分页，这就自己观察URL就可以了，简单的规律，每页的URL改变的只是页码的数字。

6、所以爬虫的大体思路就出来了：

　　（1）获取json数值

　　（2）组合生成xpath

　　（3）匹配信息

　　（4）去重、规整等处理数据

　　（5）数据导到本地

7、这样我们就可以爬取23页的数据了，而且其他的京东网页做小的修改就可以了。下面该上代码了：不知道今晚能不能写出来~

posted @ 2015-12-10 17:05 小步快跑& 阅读(1822) 评论(6) 收藏举报

刷新页面返回顶部

小步快跑&