爬虫 第二篇 纵观
继上篇文章采集图片后,有朋友问采集就这么简单吗?
当然No No No!!!!
获取数据的渠道多种多样,根据需求,可以从小程序、PC、h5、app、官方接口等等获取数据。当然 你从别人的地方获取数据,别人哪儿能那么轻易的让你获取到数据呢!所以就出现了各种反爬!我简单总结了几种......
-
对UA的检测,切换UA可以避免检测;
-
对IP的检测,所以就会出现市面上的代理IP。免费的不用说,很low。收费的代理质量也是良莠不齐;
-
对请求过程中数据的加密,常见的加密方式有MD5,RSA,DES,SHA....
(1)PC,h5 端的js加密,大多都会通过混淆映射然后加密。
(2)APP端的加密java层的很少,基本上都是在so加密,这样破解的难度大大增高 -
cookie检测,例如账户检测,指纹等一些用户信息或者本地浏览器的一些信息
-
滑块,有的人通过js直接硬刚,但是不建议这么做,为什么呢?花费时间比较多,服务端稍加变化就得从新破解。这里采用自动化的工具。滑块的方式有很多。会加上机器学习+自动化工具 轻松过掉滑块。也要避免检测自动化工具
好了!! 简单聊下反爬,还得在实际的项目上见真章!
七五七五二四八二九 欢迎QQ讨论!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix