一 . 爬虫

一. 爬虫介绍   爬虫的流程   浏览器行为   Http协议    常见的反爬手段

1. 爬虫介绍

 爬虫是一个模仿浏览器行为,向服务器发送请求并且获得数据的应用程序。而互联网好比一张大网,数据是网上的猎物,爬虫就是蜘蛛

2. 爬虫流程

发起请求 --> 获取数据 --> 解析数据 --> 存储数据

3. 浏览器行为

抓包工具:fiddler、mitmproxy

Elements:浏览器渲染后的代码,爬虫爬取的是原始数据

Console:js控制台,可以执行js代码,在js注入之前进行调试。如document.charset可以查看编码格式

Sources:网页的资源

Network:网页的抓包工具

 4. Http协议中需要关注的

1.请求
Request URL:请求地址
Request Method:请求方式
get
post
请求体:formdata、json、files三种格式
Request Headers:请求头
Cookie:保存信息(主要记录用户登录状态)
User-Agent:用户身份
Referer:告诉服务器你从哪里来。防止盗链行为
服务器特有字段
2.响应 Status Code:状态码 2xx:请求成功,但是不能用这个作为请求成功的唯一标识 3xx:重定向 4xx:客户端错误 5xx:服务器错误 响应头 location:重定向的url set-cookie:设置cookie 服务器特定字段 响应体 html代码 二进制:图片,视频,音频 json格式 jsonp格式:可以跨域

 5. 常见的反爬手段

1.检测浏览器headers

2.ip封禁

3.图片验证码

4.滑动模块

5.js轨迹

6.前端反调试

7.js加密算法

 

posted @ 2019-10-31 14:43  supreme999  阅读(168)  评论(0编辑  收藏  举报