关于反爬虫的一些认知

定义:

用户

人类用户使用的客户端

老用户

请求头中有服务端已记忆的、可识别的标识

新用户

请求头中无上述标识,初次访问时,服务端一般会通过响应头中Set-Cookie进行设置

一个可信任的(主要由人类用户使用的)IP应该具备的特征:

  1. 短时间内不应该有大量来自新用户的请求;
  2. 老用户在单位时间内的请求频次、请求时间间隔方面应该具备足够的真实用户的特征;
  3. 老用户不应该高频请求特定格式的url,也不应该全天候/每天长时间地频繁发起请求;
  4. 若存在大量老用户在较短时间内集体消失的情况,此IP很可疑;
  5. 不应该频繁地有旧用户不再发起请求,然后新用户批量接入的情况;
  6. 单位时间段内来自此IP的所有用户的请求数不应该太多;

服务端反爬虫时比较容易监控的特征值:

  1. 单位时间段内新用户的数量不能超过某个阀值
  2. 单位时间段内某个老用户发起请求的数量/速度不能超过某个阀值
  3. 特定时间点的用户总数/单位时间段内的用户数量的动态稳定值不能超过某个阀值
  4. 特定时间点的请求总数/单位时间段内的请求数量的动态稳定值不能超过某个阀值

posted on 2016-12-11 00:01  忧伤的南瓜  阅读(157)  评论(0编辑  收藏  举报

导航