反爬系列(一):refer和cookie
1.一个平时爬的好好的网站,最近遇到了ddos攻击,于是上了一个waf服务,结果我的爬虫一运行就把我的ip给封了。一开始以为永久被封了,后来发现隔个几小时又可以了。后来发现只要在爬取他的domain/page-1.htm这种页面时把refer和cookie在Header上给加上就好了。
2. 最新遇到了爬取的网站加上了一个LEDcdn的问题,由于一个response的cookie被加密再次请求无法破解,于是直接复制浏览器的cookie。实测requests在本地可以,但是一步到服务器上就不行,返回的是LEDcdn的验证加载页面。估计是本地的浏览器环境通过后被记录ip。而服务器上的没有通过浏览器的校验,没被记录ip,此时就算python的requests带上cookie也还是要被验证了。
-------------
https://www.hjdang.com/d/1866450787371085855
<a href="https://www.hjdang.com/d/1866450787371085855" target="_blank">https://www.hjdang.com/d/1866450787371085855</a>
喜欢艺术的码农
标签:
爬虫
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人