爬虫--拉勾网

1、分析整个网页

　　首先需要获取到cookies，因为它是动态的，所以每隔一段时间都需要进行重新的获取

2、发送请求

　　当你获取到指定时间段的cookie之后，下一步要做的就是通过整个cookie和url放在一起朝服务器发送请求，获取到服务器发送出来的数据（得到之后需要使用json进行反序列化）

3、对当前页面数据中的内容进行指定的操作

　　如果你想要得到一大串数据中的指定的内容，那么你就可以通过一些第三方的类库来对这段数据进行操作

4、对url进行循环从而获取到所有当前的数据内容

　　一个url只是一个页面的数据而已，如果想要获取多个页面的数据的话，就需要这个url中的某一个内容进行循环来得到所有url

总结：
　　动态cookie获取跳过了获取当前页面源代码的过程，直接得到了json数据来进行相关的操作，减少了复杂度

　　通过cookie+url的结合向服务端发送请求得到一个返回值就是Network中的preview中的数据

　　referer：

　　　　动态cookie需要进行实时更新，不然利用这个cookie获取了几次数据之后就可能获取不到内容了而产生异常

问题：

　　只能返回一种类型，比如搜索了爬虫就不能搜索python 了

　　解决：

　　　　cookie是动态分配的，所以要抓准时间，一个cookie在使用指定次数之后就需要更新这个cookie了，不然就会抛异常

代码：https://github.com/1213William/lagou_spider

posted @ 2019-09-09 14:16 tulintao 阅读(526) 评论(0) 编辑收藏举报

刷新页面返回顶部