浅谈机器学习的职业发展方向
一、机器学习相关的公司分析
1、大的有师傅的公司
这类公司主要是百度,阿里和腾讯。共同的特点是数据很大,机器学习的团队比较庞大,一般进去的同学都可以有师傅带着学习,进步会比较快。
但是三个公司的特点也有所不同。
百度是我认为在业务和技术之间匹配的最好,并且从基础到应用搭配的最好的公司。机器学习方面的能力对于百度的广告,搜索,移动搜索,LBS,应用分发,移动音乐,移动阅读,移动新闻,图片搜索,语音输入,浏览器,视频等所有业务都非常重要;而百度也非常重视机器学习团队的搭建。目前在产品方面的表现也非常不错。如果近期加入的团队一旦在基础研究以及产品化方面有巨大突破的话,百度的各个核心产品都可能大大的超出其他公司的产品。
百度的机器学习人才的需求种类最宽。
阿里目前的机器学习人才主要用在业务挖掘,广告和推荐方面。和阿里的业务非常的匹配;根据IPO公告,以及近期的动作,阿里未来的业务发展方向主要是电商业务的区域扩张(向下是向县城扩张,向上是跨国业务的发展)以及产品品类的扩张(从实物产品的电商向服务,金融方向的扩张。)从这种趋势来看,未来阿里的机器学习人才需求还是以业务挖掘,广告和推荐方面的人才需求为主(图像处理和NLP作为feutrue的提供者,也有需求)。
腾讯公司过去的主要业务是建立在社交网络之上的游戏,互联网增值服务(会员和道具之类的),广告等。根据年报,我认为腾讯今后的重点是在微信的基础上来发展盈利性业务,目前能够看到的业务有游戏,电商,支付,嘀嘀打车等;腾讯也单独把广告和视频业务提出来当做重点业务。
结合以上对于腾讯的业务分析和预测,以及之前对于腾讯的职位的一些认识,我认为腾讯今后对于机器学习类人才的需求主要有业务挖掘,广告算法,推荐等。
从业务上来看,三家公司都具有收入和利润基本都来自核心业务(百度主要来自于搜索广告;腾讯主要来自于游戏和增值服务,阿里主要来自于电商广告),同时有向其他俩家的核心业务扩展的动作但是没有成功的特点(百度尝试过电商和社交;阿里尝试过社交,也正在做搜索;腾讯尝试过搜索,也在做电商)。
从战略和职位设置来看,百度是从基础到产品都做;而阿里和腾讯主要侧重于应用。
2、中等规模的团队搭建中的公司以及专业公司
有一些公司,相对于BAT来说,市场地位相对较弱,但是公司的市场地位也不错;同时机器学习的团队相对较小,或者布置的普遍程度相对较弱。
比如当当,携程,去哪儿,360,58同城,优酷,乐视。这类公司一般会设置俩类机器学习的岗位,一是业务挖掘类岗位,另外就是推荐和广告算法的团队。这类公司具有市场地位不够稳固,机器学习团队相对较弱或者较新的特点。
同样有一些中等规模的广告行业的专业公司,也有机器学习的团队,比如MediaV,品友互动等公司。这类公司主要的岗位是计算广告算法工程师。
3、小的专业公司
在移动互联网快速发展的今天,有一些专业性的小公司,产品本身对于机器学习技术的依赖性非常大,也设置了机器学习的岗位,这些小公司大多数是创业公司,业务发展的不确定性比较大,同时需要的机器学习人才和业务本身的相关性非常大。
比如口袋购物(主要需求的是推荐算法,广告算法,NLP和图像处理人才),今日头条(主要需要的是文本挖掘,推荐等人才),微博易(主要需要的是文本挖掘类人才),出门问问(主要需要的是语音识别,搜索的人才)。
不同类型的公司对于人才的要求不同,对于能够带给人才的东西也不同,各有优劣。同学们可以根据自己的情况灵活的选择,每类公司中都有非常好的公司和岗位!
二、机器学习相关职位分析
1、互联网业务挖掘
使用的主要数据和要解决的问题,初级的业务挖掘人员的工作会离数据和算法更近;高级的业务挖掘人员
会离用户和业务更近。
职位需求趋势:
这类职位的需求量非常大,基本所有的主要互联网公司都设置了这个岗位。这个岗位的名字常常有“分
析师”,“数据挖掘工程师”等。
零售,金融,电信,制造业等行业对于互联网业务挖掘人员也持欢迎态度。近几年对于这类人才的需求
很能会有非常大的增长。
薪水状况:
从我接触到的猎头职位的情况来看,在这个岗位上工作三四年,能够独立和业务部门以及技术部门沟通
,并且能够灵活的应用数据为业务部门提出解释和建议的人才的年度薪水在20万元到35万元左右。
2年前见过大的互联网公司的分析总监给到50万元以上。
职业发展前景:
我个人认为人类曾经经历过火车时代,电力时代,汽车时代,电子时代;当下的时代是数据时代。具有
良好的数据分析能力的人对于越来越多的企业具有至关重要的作用。根据海德思哲公司的分析,未来的
企业领袖人物往往是business+science+technology三方面都很强的人,业务挖掘工程师的工作内容和其
中的俩项密切相关。
2、推荐算法
解决的核心问题是给用户想要的,不要给用户不想要的,降低用户找东西的难度,给用户更多的惊喜。
不同的互联网产品在不同的阶段,可以通过推荐系统解决不同的问题和实现不同的目标。
职位的设置情况和需求趋势:
相对业务挖掘岗位,有推荐算法职位的公司数量相对比较少。能够看到的一些公司如下。
电商:淘宝,当当,京东,口袋购物。
视频:优酷土豆,爱奇艺,风行在线,乐视。
音乐:豆瓣,虾米,网易云音乐,百度。
新闻APP:今日头条,网易新闻客户端,百度新闻,指阅。
阅读:盛大文学,掌阅科技。
团购:美团,糯米。
社交:微博,linkedin。
手机助手:豌豆荚,
LBS推荐:百度,高德。
相对电脑,手机的私密性更强,屏幕资源更小,可能会有更多的移动应用公司会部署推荐算法的岗位。
薪水状况:
我接触到的推荐算法负责人的职位(能够直接面对工程和产品部门,对推荐系统的效果负责),招聘方
给到的年度薪在30万元到50万元左右。
职业发展前景:
移动互联网是近几年互联网行业最大的潜力细分领域,而推荐对于移动互联网的所有产品都有非常重要
的作用,从这个角度来讲推荐算法工程师的职业前景非常不错。
在多个移动互联网的细分领域,推荐都处于核心地位,因此成熟的推荐算法人才创业的机会也比较多。
3、广告算法
数据主要是俩块,一块是用户的数据,除了公司自有的数据以外,也可以通过DMP(数据管理平台)获取到
一些用户的数据;另外一块是关于广告的数据。
需要解决的问题就是把用户和进行更好的匹配,提升总体的市场效率。
其中CTR预估是非常重要的工作内容。
职位的设置情况和需求趋势:
和其他的职位相比,计算广告的公司数量比较集中。公司主要分为三类。
一类是有Exchange或者类似体量的公司(相当于有设局或者设立证券交易所的公司),有百度,淘宝,
腾讯,搜狗,360,微软,雅虎。这类公司的流量很大,广告主的数量也很大,他们制定各自的市场内的
游戏规则(主要是资源分配的办法以及结算办法。)
另外一类是DSP(Demand side platform),比如MediaV,品友互动,浪淘金等。这类公司本身没有大的流量
,但是都在努力建立相对广告主更为有效的广告投放能力,主要从广告主挣钱。主要的目标是帮助广告
主更有效率的把广告投放到目标群体身上。
第三类公司是类似五八同城,优酷,新浪微博这样的大媒体。或者多盟这样的SSP(Supply side
platform)。这类公司自己有一定的流量,也有一些广告主客户。也需要有人来做市场效率的提升。
新增职业机会的来源,我能够看到的主要有以下几种。一种是在搜索市场上取得突破后需要建立商业变
现体系的360;还有一些是来自于对淘宝模式模仿的电商公司,比如当当;还有一类是互联网广告公司的
业务拓展和创新,比如SSP公司向DSP业务的拓展,或者互联网广告监测公司,或者广告生态种新的角色
诞生带来的新职位机会。
近几年看到的互联网广告相关的变化主要有2个,一个是谷歌采用GSP(General second price)竞价方
式并逐步被别的公司跟进;另外一个变化就是有些DSP公司大力倡导RTB(Real time bidding)。
这些变化都没有带来行业内计算广告人才需求量的急速增长。看未来,广告生态系统的逐渐完善而催生
出的新的细分行业和公司,也没有看到能够带来大的新增职位的急速增长。
但是互联网广告行业面临的挑战和机会也很多,比如多屏互动的期望,以及广告主日益增长的需求,都
对企业的创新提出了要求。
综合以上,计算广告行业未来的人才需求特点可能是“少而精”。
薪水状况:
广告目前是互联网行业最重要的收入来源。从百度公司和阿里集团招股书中就可以看出,这俩个公司收
入的绝大部分都来自广告。
因此计算广告人才的薪水也非常的高。
我了解到的比较成熟的计算广告人才(同时在算法和工程方面很成熟)的年收入有50万元到150万元左右
。
职位发展前景:
一旦进入计算广告行业,相对其他职位来说,创业机会较少。更有可能的是在行业内的少数几个公司成
长。
该类人才的创业机会可能需要具备几个条件,第一是外围环境的重大变化导致的新类型公司的创立机会
比较成熟,这个周期可能比较长;另外要有大量资金的支持;另外相对来说可能风险会比较大。
4、NLP
使用的数据和要解决的问题:
参考《Foundations of Statistical Natural Language Processing》,
《Speech_and_Language_Processing》。
使用的数据主要是人们日常随意写出来的或者说出来的话。比如新闻,文章,微博上的话,qq的聊天,
贴吧里的话,博客上的话,企业呼叫中心的对话等。
要解决的问题主要是对这些内容进行抽象,映射或者响应。比如信息抽取(命名实体识别,情感分析等
),机器翻译,聚类,分类,自动问答等。
职位的设置情况和需求趋势:
目前看到的NLP岗位设置主要有以下几类。
一类是在搜索公司的query处理相关的工作。目前我了解到的工作主要分俩个部分,一个部分是做query
的纠正,改写,或者近义词分析等;另外一类工作是做Topic model的研究,意思就是把用户的需求抽象
在一个“model”上,而同时预先把网页到抽象到一个“model”上,然后在model内部挑选出用户最感兴
趣的网页优先展示。
还有一类是研发机构的研究岗位,比如微软,富士通研发,三星通信等机构都有NLP的研发岗位。
第三类岗位就是一些专业性公司,比如口袋购物,微博易,今日头条,掌阅科技,简网世纪这样的公司
。在这些公司里NLP和图像处理的工作地位类似,就是为下一步的处理提供feature。
从用户端来看,WEB2.0的出现,以及社交网络的大力发展,为NLP积累下了大量的数据,同时企业也越来
越重视通过网络来倾听用户,以及和用户进行沟通;同时信息的急速增长,导致用户对于个性化产品的
需求越发明显,也促进了NLP工作的推进和岗位的设置。
今后NLP的岗位会急速增长。增长的来源一部分来自于搜索引擎公司,根据李航前辈的微博,未来搜索突
破可能来自俩个方向,一个方向是LTR(Learning to rank),另外的一个方向是Semantic match。我的理
解可能semantic mtach需要大量的NLP的工作和人才。
另外一类职位我觉得来自于大量的已经产生的大量非结构化的数据处理相关的公司,以及从大量的语音
识别转化出来的数据的利用相关的公司。这个具体是在哪个方向上不好说,但是我想趋势上一定是企业
对于海量用户产而生的嘈杂的声音的理解和利用。数据的量还在不断的急速增加,NLP工作量和任务类型
也在增加,最终导致岗位需求的增加。
薪水状况:
NLP人才的需求不象数据挖掘和推荐那样量大和紧缺,和其他的职位相比薪水比较温和。
我接触过的猎头职位,有公司愿意给工作2年左右的NLP工程师20到30万元的年度工资;也有创业公司愿
意给NLP leader50万元以上的年度工资。
职位发展前景:
我预测NLP工程师在原公司的职业生命活力会比较强(数据,算法以及工作目标可能都会有新的挑战和机
会进来);同时成熟的人才也会有很多创业机会可以考虑。
5、图像处理
使用的数据和要解决的问题:
参考《Computer Vision:Algorithms and Applications.Richard Szeliski》,
《Multiple_View_Geometry_in_Computer_Vision__2nd_Edition》
面对的数据是图像,具体也会有处理静态图像和动态视频的区别。以及离线处理和在线处理的区别。
常见的要解决的问题有检测(就是看某个图片里是否有某类东西,比如是否有人脸),识别(就是输入
一个图片,看这个图片和库里的哪个图片是一致的。)分割,拼接,3D重建,聚类,分类等。
职位的设置情况和需求趋势:
传统的图像处理岗位主要分布在类似智慧眼,汉王这样的IT公司和类似佳能,微软这样的研发机构中。
智慧眼和汉王这样的IT公司的产品,主要以行业用户为主,应用的场合有门禁,安全,社保识别等。
在大数据在中国兴起的前后,更多的互联网公司开始设立图像处理的岗位。其中百度是把图像和语音作
为文字之外的新的搜索对象来看待的,设立了图像处理的岗位并招聘了人才,但是具体如何产品化目前
还不太清楚,目前看到的只有图搜,就是把图片拷贝到检索栏里,然后可以看到一些检索的结果。
淘宝以及一些其他的电商公司也设立了图像处理或者正在招聘相关的人才,主要的工作目标是为广告和
推荐等应用提供feature。
与数据挖掘,推荐和NLP职位相比,图像处理的职位数量相对较少,发展相对比较滞后,能够看到的大众
用户使用的产品相对比较少。
我个人的感觉是图像处理行业正处在一个爆发的前夕;象智能交通事故报告系统(自动对摄像头采集到
的图像进行处理,即使在夜间也可以自动的识别出来重大事故并且提醒交警去救援),自动驾驶,离群
人群自动检测(比如机场和火车站的恐怖分子检测)等应用都具有足够的价值,目前系统能够做到的水
平也非常接近商品化。
我的判断是随着技术的突破和外围配套(包括法规或者硬件等)的成熟,图像处理的岗位会有大的爆发
。
薪水状况:
相对其他职位来说,图像处理的职位比较少一些;同时薪水不是很高。但是未来的收入前景不错。
职位发展前景:
不论在公司内部的提升,还是未来创业的角度来看,图像处理工程师的发展机会都会越来越多。