一 . 爬虫
一. 爬虫介绍 爬虫的流程 浏览器行为 Http协议 常见的反爬手段
1. 爬虫介绍
爬虫是一个模仿浏览器行为,向服务器发送请求并且获得数据的应用程序。而互联网好比一张大网,数据是网上的猎物,爬虫就是蜘蛛
2. 爬虫流程
发起请求 --> 获取数据 --> 解析数据 --> 存储数据
3. 浏览器行为
抓包工具:fiddler、mitmproxy
Elements:浏览器渲染后的代码,爬虫爬取的是原始数据
Console:js控制台,可以执行js代码,在js注入之前进行调试。如document.charset可以查看编码格式
Sources:网页的资源
Network:网页的抓包工具
4. Http协议中需要关注的
1.请求 Request URL:请求地址 Request Method:请求方式 get post 请求体:formdata、json、files三种格式 Request Headers:请求头 Cookie:保存信息(主要记录用户登录状态) User-Agent:用户身份 Referer:告诉服务器你从哪里来。防止盗链行为 服务器特有字段
2.响应 Status Code:状态码 2xx:请求成功,但是不能用这个作为请求成功的唯一标识 3xx:重定向 4xx:客户端错误 5xx:服务器错误 响应头 location:重定向的url set-cookie:设置cookie 服务器特定字段 响应体 html代码 二进制:图片,视频,音频 json格式 jsonp格式:可以跨域
5. 常见的反爬手段
1.检测浏览器headers 2.ip封禁 3.图片验证码 4.滑动模块 5.js轨迹 6.前端反调试 7.js加密算法