python爬虫工程师面经(2023年金三银四)
前言
过年期间,经过自我慎重的考虑后,终于决定在2月份向公司提出了辞职,说实话很慌,也做好了长时间找不到工作的准备,只是继续呆在公司对自我发展毫无意义,找了差不多一个月,面试了六家公司,最后确定了一份工作,在这里分享一下我的面经。
面经总结
发展相关问题
- 自我介绍
- 离职原因
- 优点与缺点
- 发展规划
个人觉得上面四个问题是面试者经常被问到的,建议大家可以在准备面试时准备好问题的答案,注意下面:
离职原因
- 不要说得太极端,不要过度涉及上家公司的不好
- 优缺点可以更多偏向专业技能、业务理解,这里的缺点有时不一定要说实在的缺点,比如可以说对行业发现的了解程度还不深,可以与面试的公司挂钩
爬虫基础相关问题
- 深拷贝与浅拷贝的区别
- scrapy原理介绍
- 布隆过滤器原理与使用场景
- 数据库主键、索引优化
- 装饰器介绍
- 进程、线程区别,进程多用于CPU计算型任务
- 扣算法、补环境、自动化工具工作原理
- pyspride与scrapy区别
- scrapy-redis与scrapy区别
- redis数据结构类型、雪崩
工作经验相关问题
- AST经验
- app、小程序采集经验
- 补环境使用场景、补过哪些参数
- selenium遇到过哪些环境检测,怎么处理
- fillder、hook使用场景
- app、小程序采集能力介绍
- 文本混淆场景:CSS、SVG、自定义字体处理
- selenium worker 托管
- post请求上千个参数怎么根据账号差异处理好请求
- 点选验证码处理
- 遇到的反爬难题与解决方案
- 环境检测:吐环境、浏览器调试报错位置,确定缺失的标签
- 养账号,账号封控
- 爬虫部署,单机,分布式
- 爬虫健康性监控:报警+维护,日志
- ip池维护,供应商,维持稳定性
- 反爬,js逆向,响应数据加密
- 中英文网站,数据转换,名单互采
- 多爬虫采集来源,数据一致性保证,入库判断
- tcp协议,无法抓包
- 人机交互验证,处理方案
这些问题基本都是面试官根据我简历上面的项目经验提问的,有一些会是在提问项目时延展到面试官公司项目实际遇到的问题,这些更多考验的是面试者的工作经验和解决问题思维。当然,上面的问题我们也可以去阅读相关博客,了解其中的技术点与解决方案。
总结
其实多次面试后,发现面试的内容大同小异,偏差不大,所以后面基本都不怂了,想想一开始面试的紧张hh,也幸好最后确定了工作。
本文来自博客园,作者:七夜魔手,转载请注明原文链接:https://www.cnblogs.com/ranbox/p/18461067