一 . 爬虫

一. 爬虫介绍爬虫的流程浏览器行为 Http协议常见的反爬手段

1. 爬虫介绍

 爬虫是一个模仿浏览器行为，向服务器发送请求并且获得数据的应用程序。而互联网好比一张大网，数据是网上的猎物，爬虫就是蜘蛛

2. 爬虫流程

发起请求 --> 获取数据 --> 解析数据 --> 存储数据

3. 浏览器行为

抓包工具：fiddler、mitmproxy

Elements：浏览器渲染后的代码，爬虫爬取的是原始数据

Console：js控制台，可以执行js代码，在js注入之前进行调试。如document.charset可以查看编码格式

Sources：网页的资源

Network：网页的抓包工具

4. Http协议中需要关注的

1.请求
Request URL：请求地址
Request Method：请求方式
get
post
请求体：formdata、json、files三种格式
Request Headers：请求头
Cookie：保存信息（主要记录用户登录状态）
User-Agent：用户身份
Referer：告诉服务器你从哪里来。防止盗链行为
服务器特有字段

2.响应
Status Code：状态码
2xx：请求成功，但是不能用这个作为请求成功的唯一标识
3xx：重定向
4xx：客户端错误
5xx：服务器错误
响应头
location：重定向的url
set-cookie：设置cookie
服务器特定字段
响应体
html代码
二进制：图片，视频，音频
json格式
jsonp格式：可以跨域

5. 常见的反爬手段

1.检测浏览器headers

2.ip封禁

3.图片验证码

4.滑动模块

5.js轨迹

6.前端反调试

7.js加密算法

posted @ 2019-10-31 14:43 supreme999 阅读(204) 评论(0) 收藏举报

刷新页面返回顶部

Suger_loverto

一 . 爬虫

一. 爬虫介绍爬虫的流程浏览器行为 Http协议常见的反爬手段

1. 爬虫介绍

2. 爬虫流程

3. 浏览器行为

4. Http协议中需要关注的

5. 常见的反爬手段

公告

Suger_loverto

一 . 爬虫

一. 爬虫介绍 爬虫的流程 浏览器行为 Http协议 常见的反爬手段

1. 爬虫介绍

2. 爬虫流程

3. 浏览器行为

4. Http协议中需要关注的

5. 常见的反爬手段

公告

一. 爬虫介绍爬虫的流程浏览器行为 Http协议常见的反爬手段