DS/MLE Key Competency and Occupational Classification Concluded from Job Descriptions

🥥 Table of Content

🥑 Get Started!

I. Key Competency

  • Data Layer数据层
    对于复杂高频质量数据的驾驭能力。在实际的AI问题当中,bottleneck往往都是数据。
  • Algorithm Layer算法层
    既包括Machine Learning, Deep Learning, NLP, Computer Vision这些模型(之一二)的structure和理论层面的理解,也包括要如何用正确的工具去implement这些模型。
  • Application Layer应用层

因为在构建一个End to End的ML system的过程当中,仅仅有数据和算法是远远不够的,他们就像人的大脑,当你需要打开人其他的触觉味觉听觉系统,那么我们的大脑的决策才能够和外界产生交互,这个过程就是由应用层来完成的。

  • Control Layer控制层
    在大公司里每一天线上可能都会有成百上千个模型在Run各种决策,要如何去make sure这些模型的稳定性以及如何自动化地去做模型的training, tuning, testing,这些都是需要MLE去精准地控制。

好消息就是,几乎不会有任何一个岗位要求你同时具备上述四个维度的技能,即使是一些比较Senior的岗位也只是要求在其中的两到三个维度上面。

II. Occupational Classification

  • Production-oriented MLE
    • 需要把一个已经训练好的模型去部署在公司的庞杂繁复的系统上面让它去跑起来,可以理解为你要根据一个车的图纸,去把这辆车造出来,他通常都需要每天和Data Scientist, Research Scientist, Product Managers去深度合作,由于这一类岗位它对工程能力的要求没有ops和infra那么得深,对research的要求也没有卡在PhD,所以Production-oriented MLE是很多DS包括传统SDE转型最多的一个track。

    • 这个类型的核心技能我认为主要有三个部分。

      • 第一个部分就是ML Frameworks,包括PyTorch, Tensorflow, Scikit-learn和Langchain(LLM)。
      • 第二个部分就是Data pipeline,你需要构建这个数据在模型前和模型后的所有pipeline,通常会用到SQL, Spark, Airflow, Snowflake这些工具。

      • 第三部分就是Cloud Computing,你需要让这个模型去有一些Scalability的时候,我们就需要吧它deploy到AWS等一些云服务商上面。那么基本拥有上述这三个技能里面的两个技能,你就已经可以成为一个比较合格的Entry-level(Production-oriented MLE)了。
      • 除了基础的这些技能之外,还有两个可以让你stand out的BONUS point,技术方面有Cluster management(比如Kubernetes), GPU Acceleration, fast API这些。第二个部分就是DOMAIN knowledge, especially for industry usage cases,比如你之前的学习和工作经历里面,有做过任何场景像advertisements, supply chain, healthcare等等
  • Research-oriented MLE
    工作需要与时俱进,去用科研底蕴分析当下某一个新技术、新论文会不会对这个公司有什么价值,核心竞争力是Research能力,理论知识的储备,对工程能力也会有一定的要求,但是不会有另外两类MLE的要求那么得高,最好你的理论方向是跟这个公司的业务相匹配的,如果这个公司的核心业务和你的理论相匹配的话,那么这样就是一个很有优势的机会,据说Netflix在招他们的MLE Intern的时候有一个环节,你要把你过去做过的一个科研project去推荐给这个组里的几位大佬。为什么要这么做呢?是因为在实际的工作当中,每天都会有无数的新科技、新论文出现,那你要怎么样用你自己的方式去validate这个方向,把它呈现出来去说服别人就显得至关重要。
  • Infra-oriented MLE
    Job title上面写的是像MLOps Engineer,那它就是这一类了,工作内容可以概括为你需要去build all kinds of Infra frameworks and data pipelines to support models,核心技能主要包括data pipeline, cloud computing, orchestration framework, CI/CD pipeline,这一类的MLE的核心技能点跟data engineer和传统的devops是有很多重合的部分
posted @   ForHHeart  阅读(45)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 我与微信审核的“相爱相杀”看个人小程序副业
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~
点击右上角即可分享
微信分享提示