爬虫--今日头条

1、分析今日头条

　　在看头条的时候可以发现展示出来的页面的数据都是一些封装过的js代码或者css代码，所以这时候就需要考虑页面的数据是不是封装在cookie里面了

　　回过头去看cookie就可以发现有一个s_v_web_id的cookie字段，然后上去一试就得到了当前网页的真是源代码，所以我们就可以根据这个cookie和网址一起想服务端发送过去以来获得真实的数据

2、选取合适的方法来爬

　　当我们获得了真实的数据以后，要走的就是解析这里面的内容了，我又定睛一看，发现我要的所有信息都放在了data这个字典里面了，所以我就循环data，然后获得里面的title和id（要记住这里面的id是需要进行拼接的，所以只能手动进行拼接）

3、选择存储方式

　　我代码里面没有写存储方式，但是我一般使用mongodb比较多，所以就可以直接将数据保存到mongo中

posted @ 2019-09-08 14:56 tulintao 阅读(886) 评论(0) 编辑收藏举报

刷新页面返回顶部

tulintao