记录一次爬虫方法
虽然现在看来没有什么难度,但是当时第一次的时候没有找到方法,现在把整个过程记录一下供自己日后参考,也给初学者一个参考。话不多说,开干。
目的:爬取一下物联网卡的流量和到期时间等参数,这样可以提前提醒自己避免流量用完带来的影响。
分析:
1、网站有一个登录界面,所有的请求必须要登录后才能访问,因此我们先要模拟登录。
2、登录成功后需要访问流量卡界面,因此需要模拟请求得到流量卡信息(一般都是动态加载的数据,如果是静态页面就直接解析静态页面数据)
一、开始 模拟登录:
1、打开登录网址 邮件检查可以看到有个提交函数
2、,找到函数实现 可以看见是一个post请求将有户名密码传入后台服务器。服务器返回一个url跳转到主页。
3、使用postman来验证,可以看见登录成功
二、开始寻找获取流量卡信息接口
1、按F12 点击network XHR 点击请求按钮
2、可以看见有个请求链接,点击可以看见是一个json的数据,里面正是我们要的数据。
但是直接复制连接不能得到数据,会返回一个找不到404错误。
3、点开heards,拉到底可以看见一个formdata
4、使用postman验证 可以看到返回我们想要的数据
最后使用scarpy框架来爬取数据
最后贴一张scrapy的安装包结构,从下网上安装
到此整个爬虫结束。