爬虫第二篇纵观

继上篇文章采集图片后，有朋友问采集就这么简单吗？

当然No No No!!!!

获取数据的渠道多种多样，根据需求，可以从小程序、PC、h5、app、官方接口等等获取数据。当然你从别人的地方获取数据，别人哪儿能那么轻易的让你获取到数据呢！所以就出现了各种反爬！我简单总结了几种......

对UA的检测，切换UA可以避免检测；
对IP的检测，所以就会出现市面上的代理IP。免费的不用说，很low。收费的代理质量也是良莠不齐；
对请求过程中数据的加密，常见的加密方式有MD5,RSA，DES,SHA....

（1)PC，h5 端的js加密，大多都会通过混淆映射然后加密。
（2）APP端的加密java层的很少，基本上都是在so加密，这样破解的难度大大增高
cookie检测，例如账户检测，指纹等一些用户信息或者本地浏览器的一些信息
滑块，有的人通过js直接硬刚，但是不建议这么做，为什么呢？花费时间比较多，服务端稍加变化就得从新破解。这里采用自动化的工具。滑块的方式有很多。会加上机器学习+自动化工具轻松过掉滑块。也要避免检测自动化工具

好了！！简单聊下反爬，还得在实际的项目上见真章！

七五七五二四八二九欢迎QQ讨论！

posted @ 2024-04-25 12:09 低头不见抬头见阅读(31) 评论(0) 收藏举报

刷新页面返回顶部

feimew