爬虫工程师就业技能及大纲
前言
此篇随笔为大纲及概述,后续会更新详细内容及案例内容。
大纲以及后续更新的内容来自本人从B站博主 路飞学城 发布的课程学来的知识加以自己的理解,案例内容为自己提的各方面需求。
职业规划
以稳固的web端爬虫入手,逐步渗透app端爬虫,当全部成熟后,攻坚数据可视化和数据分析。完成一套技术流程,提升自身价值。
大纲
python基础语法
requests模块,session请求(请求时携带动态变化的cookie)
xpath解析(推荐),bs4解析,正则表达式
selenium模块、动作链、iframe标签的注意
selenium操控的无头浏览器及规避对selenium的检测
验证码的处理:云打码平台(普通验证码,数字字母之类)
超级鹰(更难得验证码,比如给出文字“老虎”,验证码要求点击图中所有老虎)
OCR技术(使用tesserocr库,可以识别难度低的,比如下图,一般使用此方法时需要处理处理图片,比如灰度化,二值化)
机器学习训练模型分析出验证码
卷积神经网络训练模型分析出验证码(比机器学习准确度更高)
selenium解决滑动式验证码,具体方法是比较验证码图片缺失位置像素差值,然后获取位置啊大小啊之类,截图,加速,减速等行为。
暴力枚举解决宫格式验证码(比如各个手机银行进入时的宫格手势密码)
代理ip池的维护
多线程/多进程 异步爬虫
协程爬虫
scrapy框架
分布式爬虫(基于scrapy-redis)
增量式爬虫(利用redis数据库的set去重)
数据库:
Mysql
Mongodb
Redis
JS逆向破解参数加密
JS混淆
app端的爬虫(尚未学习)
案例
全本小说网玄幻魔法人气排行下载
百度图片的李连杰图片前10页
qq音乐热门歌曲前两页下载
美团的浦东商家详情页信息
58同城的简历自动投递
安居客房源信息的采集
淘宝iphone11手机价格的采集及实时更新
boss直聘中上海互联网行业各职位薪资待遇和职位要求
雪球网沪深股市沪深一览增量式爬取(内容在变化)
神州租车价格和数量 增量式爬取
信托类网站项目类型和规模的爬取
格力空调官网 格力发布 新闻的爬取
中国空气质量在线监测平台的爬取(涉及JS加密)https://www.aqistudy.cn
衡水市人民政府公示公告的爬取