反爬虫手段
1.校验 cookie头,验证请求用户身份,不是合法用户,弹出登录框
2.校验Referer头,校验请求是否从指定页面跳转而来,阻止该请求
3.校验User-Agent,校验请求客户端是不是浏览器,阻止该请求
4.校验请求频次和请求总数(包括IP维度、用户维度),如果请求太快,可能是爬虫;页面弹出一个验证框来验证是否是人在浏览页面还是爬虫在爬取页面(包括但不限于以下方式:图形验证码、鼠标拖拽滑块、做一道数学题、根据提示选择几种图形)(或者直接封该IP或用户)
5.动态页面,所有内容由js生成,增加爬取难度,爬虫需要引入浏览器才能解决动态页面爬取,严重影响爬虫性能
6.页面增加一个诱饵url,这个URL不显示在页面上,用户不能点击,但是爬虫会爬取这个URL,并向服务器发送这个URL,服务器就可以判断这个是爬虫,直接封杀该IP或者用户
7.把部分文字内容放到图片中,爬虫很难解析图片内容,导致爬虫爬取的数据不完整,不能用,既然无法达到目标,爬虫自然就不爬取你的网站了
8.通过CSS偏移,把页面数据弄乱,页面展示比较正常,但是爬取的内容是混乱的,增加爬取难度