scrapy爬取知乎users

一分析网页

1. 可以发现在这个data下面储存了所以关注信息列表，是需要抓取的数据

2.触碰用户名称可以触动ajex请求

3。点进用户，发现其连接为：

即url_token 和user_type相加即可到达页面。

所以构建第二个爬虫时，爬取这个页面，用户的基本信息。

以上在处理主页的时候，触碰目标，会有url的前端出现，沿着它去找，所需要的数据，

然后摘取数据的request_url,上面这个request_url则是指向关注列表的url，它返回的内容是在data里面的关注列表。

4.在分析网页过程中，可以发现3种扩散爬取的方法。

a. 在某个起始用户的url关注列表中，触碰用户图像，会产生ajex请求，从而获取到此用户的具体信息，但是关注列表获取不到，依旧要爬取一遍关注列表

b. 点进去用户，获取用户的具体信息，然后再跳转到关注列表，获取关注列表信息

c. 从起始用户那里，获取关注用户的所有信息，然后再构造每一个用户的关注url，获取关注信息，目前准备采用这种。

posted on 2018-02-10 23:01 java小萌新(づ￣3￣) 阅读(124) 评论(0) 收藏举报

刷新页面返回顶部