爬虫个人总结
刚开始选择爬虫是感觉比开发简单,那时候Django和flask觉得太难,就走爬虫这条路,但现在来说发现越来越难,简直不是人干的事,一入爬虫深似海!我将自己的心声写成笔记分享出来,想入爬虫坑的慎重。
现在分为web端和APP端:
web端返回格式,有json,html等格式,
状态常见的有两种,get和post,有些加入headers和data就能请求出来
难点:UA检测,频率限制,IP封禁,登录限制,动态加载,参数加密(js逆向),验证码,字体反爬,css反爬等从易到难
app端基本都是http、https协议,返回格式大部分都是json,相对于web端返回格式更规整,也好抓取些。
难点:app逆向,app脱壳,参数加密,破解各种签名、证书等等
想搞会app的这些反爬得先掌握java编程,安卓编程,C这些语言,至少得能看懂语法
从入门到全栈,难度可想而知
最重要的一点大家都知道,爬虫这个岗位属于灰色边缘层级,岗位也不多,懂得都懂,能转开发或者其他的都可以
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步