爬虫 第二篇 纵观

继上篇文章采集图片后,有朋友问采集就这么简单吗?

当然No No No!!!!

获取数据的渠道多种多样,根据需求,可以从小程序、PC、h5、app、官方接口等等获取数据。当然 你从别人的地方获取数据,别人哪儿能那么轻易的让你获取到数据呢!所以就出现了各种反爬!我简单总结了几种......

  1. 对UA的检测,切换UA可以避免检测;

  2. 对IP的检测,所以就会出现市面上的代理IP。免费的不用说,很low。收费的代理质量也是良莠不齐;

  3. 对请求过程中数据的加密,常见的加密方式有MD5,RSA,DES,SHA....

    (1)PC,h5 端的js加密,大多都会通过混淆映射然后加密。
    (2)APP端的加密java层的很少,基本上都是在so加密,这样破解的难度大大增高

  4. cookie检测,例如账户检测,指纹等一些用户信息或者本地浏览器的一些信息

  5. 滑块,有的人通过js直接硬刚,但是不建议这么做,为什么呢?花费时间比较多,服务端稍加变化就得从新破解。这里采用自动化的工具。滑块的方式有很多。会加上机器学习+自动化工具 轻松过掉滑块。也要避免检测自动化工具

好了!! 简单聊下反爬,还得在实际的项目上见真章!

七五七五二四八二九 欢迎QQ讨论!

posted @   低头不见抬头见  阅读(15)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示