淘宝数据采集-火车头采集之多页采集

1.如何采集淘宝产品图片大图?

淘宝产品小图格式一般为:http://gd4.alicdn.com/bao/uploaded/i4/T1CMpIFM8XXXXXXXXX_!!0-item_pic.jpg_50x50.jpg

大图的格式一般为:http://gd4.alicdn.com/bao/uploaded/i4/T1CMpIFM8XXXXXXXXX_!!0-item_pic.jpg_600x600.jpg

利用正则匹配即可得到真实的大图地址。

 

2.如何采集淘宝产品描述?

淘宝的描述是用ajax异步获取的,研究了html发现真实的地址是:"apiItemDesc":"http://dsc.taobaocdn.com/i7/380/241/38624980066/T1ULBiFG8eXXcWeqbX.desc%7Cvar%5Edesc%3Bsign%5E2e7278bcb05832f21ecab94708b3523e%3Blang%5Egbk%3Bt%5E1402729711",

再利用火车头采集器的多页管理,先新建一个多页:

保存多页后点击“切换到无限极多页编辑模式”,如下图

然后点击“编辑多页规则”

 

posted on 2014-06-21 19:02  战斗中的小鸡  阅读(2926)  评论(0编辑  收藏  举报

导航