五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
接着昨天的思路,继续分析,要想获取信息,就要抓获xhr中js请求。
如图:

 


1.明显可以看的出request url 是由若干参数拼接而成。
2._token 参数很显而易见 是个重要的请求参数,而且在一段时间内是变化的,是有一定的时效期,由请求数据时生成。

本来是想着去获取参数模拟请求url,为了少走弯路,也百度了他人的一些建议,想要获取参数,需要破解其js加密算法,看其是如何生成的。
由此可见,网站直接去采集请求是行不通的,只能另寻它路,总归会有解决的办法,只是目前自己的能力还不够,需要多去思考。

问题:之前采集工商信息数据也是,对天眼查、企查查、启信宝、这些网站直接访问采集是行不通的,只能找其他的接口去采集,采集手机端接口网站,因为其反爬会少一些。

解决:访问https://i.meituan.com/ 手机端接口网站

点击美食,加载数据,控制台情况如下:

 

请求头设置:

参数设置:

多拖动滑动条,发现 offset发生变化,每次刷新加载15条数据。但是这里呢,还是出现了一些问题,还没有开始爬数据,只是简单地测试加载数据就出现了验证码的问题,

因此要像爬房产信息那样,虽然数据有很多,但是只给你返回100页数据,要想获取全部数据就要进行分类抓,不能抓取全部商品。

 

拿第一个数据为例:

 

点击进入店铺:

http://meishi.meituan.com/i/poi/182184268?ct_poi=214211849171754862311089403833099184593_a182184268_c0_e68113015781879163

http://meishi.meituan.com/i/poi/182184268?ct_poi=214211849171754862311089403833099184593_a182184268_c0_e68113015781879163

 可以发现url是拼接而成的,两个重要参数 poiid /和 ct_poi

好了今天就先分析到这里,想要获取详情店铺数据就需要先获取其 poid和ct_poi参数,然后再配置其需要修改的相关参数就能正确采集到信息。

 

posted on 2018-12-03 22:43  五杀摇滚小拉夫  阅读(362)  评论(0编辑  收藏  举报