python爬虫 - 理性绕过各大平台的反爬检测
后面会慢慢完善,先作为笔记记录一下
需要账号的
现在是大数据时代,各个平台争抢的就是用户数据,用户数据怎么来,就是账号注册来的,在注册的时候设置的一些问题,不管你是否如实填写,都会对你这个账号做用户画像,提取该账号的喜欢和不喜欢,加上再获取通讯录权限,获取手机推送权限,然后每天一点点的搜集数据,到了一定
程度后,开始对这个账号进行重组信息,匹配出相似数据推送给你。
那么,也就是,作为一个正常人对于平台的价值就是获取数据。
那作为爬虫,可以伪造一个人设,然后这个账号就尽量的往这方面去贴靠,平台不就是想要这些数据嘛,那就给他啊,每天随机的上线平台,然后
随机的刷数据,遇到跟这个人设喜欢的东西就疯狂访问,点喜欢和收藏,与同爱好的其他账号互动。
也就是先准备一批账号,然后对这些账号作人设分类,以后就各自维护各自的人设,人设可以随机的小方向的改动,比如以前这个账号很喜欢某个明星或者方向,然后因为什么突然的不喜欢,甚至是讨厌,那就不要再访问该明星相关的信息,但是这种从喜欢到讨厌一定要有关联性,比如,你
是通过这个明星A 发现的明星B,然后你会经常访问B的主页,这样才是正常的行为,或者说这个明星吸毒或者是港独台独之类的,如果没有关联性的话,那就很可能被设置为可疑对象。一定不能是很极端的改动,比如这个账号以前很喜欢特朗普,突然的有天很讨厌特朗普,天天就是一顿骂,
这种涉及到时事政治的大改动,一定是不行的。
这样一直往后的去处理,其实也可以说是在养号,然后这个账号到了某个时刻需要发布一些个人相关的数据,比如这个账号已经注册了好几年,可以发一些对这个平台的感受的言论,或者到了一定年纪,比如28岁了,发布一个假的结婚信息或者恋人信息,32岁了,孩子有了,发布一些孩子的
信息,这个信息可以是假的,不一定要是本人,但如果有露脸就一定要是同一个人,到了40岁,到了50岁该干嘛。
时而发布一些搞笑的东西,时而发布一些消极的数据,贴靠正常人的行为
总之就是做一些在采集的角度看来很多“毫无意义”的事,但是这些正好能辅助我们的账号的安全正常等级越来越高,也就也越不容易被封号
无账号的,直接硬刚
大厂都有收集代理ip,会做代理ip所属对比,选用的代理ip一定不能太大众化
访问速度和访问频率控制
浏览器:谷歌验证(验证码,recapcha),网易易盾,极验,数美,瑞数
app:加固包(腾讯乐固,360加固,爱加密,梆梆加密),ssl pinning,sign加密验证,微信,qq授权登陆,frida反调试,签名验证防二次打包等
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】
2020-06-02 macos安装selenium+浏览器驱动
2020-06-02 爬虫神器,对ajax加载的数据进行hook截取,无视带有加密参数的接口