爬虫--今日头条

1、分析今日头条

  在看头条的时候可以发现展示出来的页面的数据都是一些封装过的js代码或者css代码,所以这时候就需要考虑页面的数据是不是封装在cookie里面了

  回过头去看cookie就可以发现有一个s_v_web_id的cookie字段,然后上去一试就得到了当前网页的真是源代码,所以我们就可以根据这个cookie和网址一起想服务端发送过去以来获得真实的数据

2、选取合适的方法来爬

  当我们获得了真实的数据以后,要走的就是解析这里面的内容了,我又定睛一看,发现我要的所有信息都放在了data这个字典里面了,所以我就循环data,然后获得里面的title和id(要记住这里面的id是需要进行拼接的,所以只能手动进行拼接)

3、选择存储方式

  我代码里面没有写存储方式,但是我一般使用mongodb比较多,所以就可以直接将数据保存到mongo中

 

具体代码在:https://github.com/1213William/toutiao_spider

posted @ 2019-09-08 14:56  tulintao  阅读(882)  评论(0编辑  收藏  举报