爬虫

爬虫

爬虫,通过编写程序,让其模拟浏览器上网,获取数据的过程

爬虫的分类

  1. 通用爬虫
  2. 聚焦数 据
  3. 增量式数据

反爬机制

反反爬策略

  1. robots协议,防君子不防小人
  2. UA 检测
  3. 动态token参数
  4. 代理,禁IP
  5. 验证码
  6. cookies
  7. 数据动态加载
  8. 数据加密

HTTP协议

  • 协议:client和Server进行数据交互的一种形式。
  • 请求头信息:
    • User-Agent:请求载体的身份标识
    • Connection:'close'
  • 响应头信息:
    • Content-Type:
  • https:
    • 对称秘钥加密:
    • 非对称秘钥加密:
    • 证书加密:
posted @ 2019-08-11 16:17  写bug的日子  阅读(76)  评论(0编辑  收藏  举报