scrapy爬取知乎users
一 分析网页
1. 可以发现在这个data下面储存了所以关注信息列表,是需要抓取的数据
2.触碰用户名称可以触动ajex请求
3。点进用户,发现其连接为:
即url_token 和user_type相加即可到达页面。
所以构建第二个爬虫时,爬取这个页面,用户的基本信息。
以上在处理主页的时候,触碰目标,会有url的前端出现,沿着它去找,所需要的数据,
然后摘取数据的request_url,上面这个request_url则是指向关注列表的url,它返回的内容是在data里面的关注列表。
4.在分析网页过程中,可以发现3种扩散爬取的方法。
a. 在某个起始用户的url关注列表中,触碰用户图像,会产生ajex请求,从而获取到此用户的具体信息,但是关注列表获取不到,依旧要爬取一遍关注列表
b. 点进去用户,获取用户的具体信息,然后再跳转到关注列表,获取关注列表信息
c. 从起始用户那里,获取关注用户的所有信息,然后再构造每一个用户的关注url,获取关注信息,目前准备采用这种。
posted on 2018-02-10 23:01 java小萌新(づ ̄3 ̄) 阅读(106) 评论(0) 编辑 收藏 举报