爬虫遇到的坑——发现你是爬虫抛出假数据

在爬取国外的某个网站的时候,刚开始他们是封ip,优化好ip池,准备大展身手的时候,数据顺利的爬取完毕后,发现数据有重复的。然后研究了一下,

最后的原因是他们的后台发现是爬虫以后,直接给抛出假的数据。上证据:

 

 

 

 

 

 

 

 

 

解决办法:

每个ip的访问次数尽量的少,尽量用多的ip抓取,抓取速度尽量的慢一些。

 

posted @   淋哥  阅读(2112)  评论(0编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
历史上的今天:
2017-06-05 Python时间,日期,时间戳之间转换,时间转换时间戳,Python时间戳转换时间,Python时间转换时间戳
2017-06-05 selenium 获得 cookie 信息
2017-06-05 django.db.utils.OperationalError: no such table: auth_user
点击右上角即可分享
微信分享提示