scrapy爬取知乎users

一   分析网页

1. 可以发现在这个data下面储存了所以关注信息列表,是需要抓取的数据

2.触碰用户名称可以触动ajex请求

3。点进用户,发现其连接为:

即url_token 和user_type相加即可到达页面。

所以构建第二个爬虫时,爬取这个页面,用户的基本信息。

 

以上在处理主页的时候,触碰目标,会有url的前端出现,沿着它去找,所需要的数据,

然后摘取数据的request_url,上面这个request_url则是指向关注列表的url,它返回的内容是在data里面的关注列表。

4.在分析网页过程中,可以发现3种扩散爬取的方法。

     a. 在某个起始用户的url关注列表中,触碰用户图像,会产生ajex请求,从而获取到此用户的具体信息,但是关注列表获取不到,依旧要爬取一遍关注列表

     b. 点进去用户,获取用户的具体信息,然后再跳转到关注列表,获取关注列表信息

     c. 从起始用户那里,获取关注用户的所有信息,然后再构造每一个用户的关注url,获取关注信息,目前准备采用这种。

 

posted on 2018-02-10 23:01  java小萌新(づ ̄3 ̄)  阅读(106)  评论(0编辑  收藏  举报

导航