淘宝数据采集-火车头采集之多页采集
1.如何采集淘宝产品图片大图?
淘宝产品小图格式一般为:http://gd4.alicdn.com/bao/uploaded/i4/T1CMpIFM8XXXXXXXXX_!!0-item_pic.jpg_50x50.jpg
大图的格式一般为:http://gd4.alicdn.com/bao/uploaded/i4/T1CMpIFM8XXXXXXXXX_!!0-item_pic.jpg_600x600.jpg
利用正则匹配即可得到真实的大图地址。
2.如何采集淘宝产品描述?
淘宝的描述是用ajax异步获取的,研究了html发现真实的地址是:"apiItemDesc":"http://dsc.taobaocdn.com/i7/380/241/38624980066/T1ULBiFG8eXXcWeqbX.desc%7Cvar%5Edesc%3Bsign%5E2e7278bcb05832f21ecab94708b3523e%3Blang%5Egbk%3Bt%5E1402729711",
再利用火车头采集器的多页管理,先新建一个多页:
保存多页后点击“切换到无限极多页编辑模式”,如下图
然后点击“编辑多页规则”