反爬虫手段

1.校验 cookie头，验证请求用户身份，不是合法用户，弹出登录框

2.校验Referer头，校验请求是否从指定页面跳转而来，阻止该请求

3.校验User-Agent，校验请求客户端是不是浏览器，阻止该请求

4.校验请求频次和请求总数(包括IP维度、用户维度)，如果请求太快，可能是爬虫；页面弹出一个验证框来验证是否是人在浏览页面还是爬虫在爬取页面（包括但不限于以下方式：图形验证码、鼠标拖拽滑块、做一道数学题、根据提示选择几种图形）(或者直接封该IP或用户)

5.动态页面，所有内容由js生成，增加爬取难度，爬虫需要引入浏览器才能解决动态页面爬取，严重影响爬虫性能

6.页面增加一个诱饵url，这个URL不显示在页面上，用户不能点击，但是爬虫会爬取这个URL，并向服务器发送这个URL，服务器就可以判断这个是爬虫，直接封杀该IP或者用户

7.把部分文字内容放到图片中，爬虫很难解析图片内容，导致爬虫爬取的数据不完整，不能用，既然无法达到目标，爬虫自然就不爬取你的网站了

8.通过CSS偏移，把页面数据弄乱，页面展示比较正常，但是爬取的内容是混乱的，增加爬取难度

posted @ 2022-08-04 16:24 高压锅里的大萝卜阅读(42) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· nginx 反向代理重试机制

· Http method

· 总结的反爬虫手段(持续更新)

· 反爬虫的所有套路和策略

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· SQL Server 2025 AI相关能力初探
· 展开说说关于C#中ORM框架的用法！
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？

昵称：高压锅里的大萝卜
园龄： 9年3个月
粉丝： 1
关注： 0

2025年3月

日

一

二

三

四

五

六