爬虫
爬虫
爬虫,通过编写程序,让其模拟浏览器上网,获取数据的过程
爬虫的分类
- 通用爬虫
- 聚焦数 据
- 增量式数据
反爬机制
反反爬策略
- robots协议,防君子不防小人
- UA 检测
- 动态token参数
- 代理,禁IP
- 验证码
- cookies
- 数据动态加载
- 数据加密
HTTP协议
- 协议:client和Server进行数据交互的一种形式。
- 请求头信息:
- User-Agent:请求载体的身份标识
- Connection:'close'
- 响应头信息:
- Content-Type:
- https:
- 对称秘钥加密:
- 非对称秘钥加密:
- 证书加密: