数据科学家访谈系列:子豹(淘宝)、授武(聚划算)
陈逸波(花名:子豹),江苏常州人士,2010 年毕业于浙江大学数学系,目前在淘宝网的数据科学部门做一些电商相关的数据分析和数据挖掘工作。下称 yb。
郝智恒(花名:授武,网名:大刀),甘肃兰州人士,2012 年毕业于南开大学概率统计系,目前在聚划算 BI 部门做数据挖掘工作,感兴趣的领域是电商数据挖掘和社交网络分析。在统计之都主站及豆瓣发表过多篇文章。下称 bk。
关于数据分析之路
小编:你们两个好像都是学数学出身,为什么最后走上了数据分析这条路?
yb:现实一点的原因是社会对数据分析的需求相对较多,比较好找工作以及自己搞数学研究不是很擅长。
小编:还有非现实的原因?
yb:没有非现实的原因。
bk:我是学统计的。
小编:数据分析领域最吸引你们的地方是哪里?是身处大数据时代的原因吗?
yb:数据分析比较有意思,可以做的东西很多。我们开始做数据分析的时候,还没有大数据时代这个概念,所以不存在因果关系。数据分析相对来说对人的要求比高,既需要扎实的统计概念,又需要对数字敏感,还需要更多的对各行各业的专业知识,很有挑战性,也可以带来成就感。
小编:还可以帮女朋友抓数据?
yb:是的,没错。
小编:能说具体一点吗?
yb:因为数据分析其实是很好讲故事的,相比数学来说,是比较实用实在的一门技能。比如,我最开始的时候是用R给我女朋友画一个太阳升起落下的动画,她就很开心。虽然跟数据分析没啥关系。后来我就写代码从网站上抓数据,帮她做周报。她再次很开心。所以数据分析真是一门有用的技能。
bk:我做数据分析的原因是感兴趣,主要也是受统计之都的影响。我上学的时候一直比较迷茫以后的出路,上 COS 论坛也基本上是研二才开始的,当时上了论坛发现这帮人做的东西有意思,再一个一个关注统计之都几位老大的博客,比如刘思喆、波波头的博客,发现有意思的东西太多了,比如社交网络分析。觉得这东西和自己学习的专业又有关系,又能真正在业界发挥一些作用。就下定决心往这个方向发展。对我来说统计之都的启蒙意义比较重大。之所以做数据这行,和统计之都密不可分。
关于社会网络分析
小编:我看你们对社交网络很感兴趣?社交网络分析是纯兴趣吗?还是工作需要?
yb:我最早认识郝大刀就是画那个社会网络的时候。因为我研二的时候看了一本讲社会网络分析的书(《社会网络分析法》),觉得跟之前做的一些模型不大一样,当时正好校内网之类的网站很火,我感觉可以做点分析方面的尝试。后来第一份工作的时候,相对比较闲,就学着抓数据、分析、画图。都是零基础,最后也没学得很深入,但仍然觉得很有意思。也是因为很容易讲故事,很贴近生活,很好懂。我在工作中基本没用过社会网络分析的概念。之前有同事对这个挺感兴趣的,应该也做了一些东西,不是很清楚,也不大方便讲。
bk:我是纯兴趣。淘宝这边也用社会网络分析做了一些东西出来。我是看了波波头的那篇主站文章才认识这么个东西的。
yb:社会网络的用处,可以想象《数字追凶》这类剧集,类似恐怖分子的发掘。
bk:嗯,“犯罪”一般都会有些社交属性,能从数据中挖掘出来。甚至可以挖掘出整个黑色利益链条。
yb:其实,社会网络并不是必须品,很多概念也是通用的。很多都可以做成传统的分类模型的形式,给店铺或者用户打各种标签,其中有些标签可以来自社会网络的概念,但是没有社会网络也可以重新定义出这些标签来的吧。最近看《社交红利》,社交网络就是“信息 + 关系链 + 互动”,还是蛮贴切的,每个点上都可以做分析。我感觉社会网络这块还是用户聚类和兴趣挖掘更有意思。
bk:嗯,是的,具体操作过程中结合业务场景的理解很重要。
关于每天的工作
小编:你们作为数据科学家,现在主业是什么?
yb:我现在主业是提数据和做测试。就是我们有新的模型呀,新的算法呀,就丢上去做测试。这方面我之前没啥经验,正在学习。
bk:我就是做聚划算这块的数据挖掘建模工作,提数、洗数、模型试验、部署,啥都干。顺带也处理一些临时需求练练手。跟着波波头混。
yb:其实我们的工作差不多。不过,大刀现在主要做聚划算的业务。我可能一会儿做聚划算一会儿做天猫这种的。
关于数据科学家的地位问题
小编:你们的数据分析工作是价值部门,还是支撑部门?部门是如何定位的?
bk:属于支撑部门吧。
yb:大 BI 的概念下整体算是支撑的,数据支持运营支持管理支持产品。
bk:我感觉天天被人追着干活的就是支撑部门,天天追着别人干活的属于价值部门,我们明显是 ……
yb:唉说多了都是泪。
小编:数据分析在你们公司还是比较重视的吧?毕竟,没有数据分析过程,没法创造价值。
bk:我感觉淘宝这边 BI 地位还行,自己也能玩,业务方也比较待见。
yb:淘宝是已经比较相信并且依赖数据化运营了,这个确实比较好,运营本身不是不能创造价值。但是有数据不用天理难容。
bk:是的,数据都存下来了,不挖点东西出来,浪费资源!
编程和理论哪个重要
小编:替有志于从事数据分析的朋友问个问题:你们还有职位空缺没?我看前几天,大刀还发布招聘广告呢?
yb:各个团队都缺人。
小编:你们一般需要什么样的人?具有什么的技能?理论扎实的,还是编程能力强的?
yb:都要。团队合作。
小编:理论都有哪些?统计还是机器学习?哪个更多一些,平分秋色?
yb:我自己感觉,以前在阿里金融的时候,统计背景的占大多数。现在这里,差不多是比较平衡,既有分析,也有算法。
小编:统计理论和编程能力,如果非得做取舍,你们觉得哪个更重要,或者有其他更重要的?
yb:我觉得理论重要,编程相对好学。理论真的需要积累。我是读研了之后打算做数据分析,才开始自学一些统计知识,基础很不扎实。现在学起来就比较累。
bk:我感觉理论会比较重要些,编程相对来说比理论好学一些。我的感觉是有一个框架和基础,现用现学也 OK。
yb:达成共识。
yb:昨天刚在 Linkedin 上跟我们新来的 Google 数据科学家搭讪了一下,发现他的背景就是数学 + 物理 + 统计。然后,我今天帮他提数就错过了班车。据说还可能会来一个推特的数据科学家,不明觉厉。
bk:你们部门现在真是越来越牛了。
关于东家
小编:如果可以任意选择,最想去哪家公司做数据科学家?也包括海外的公司。
yb:可以说不是淘宝吗,被老板看到会不会被开除?
bk:那我选择淘宝好了,感觉淘宝这边能做的东西还是很多。
yb:我没啥规划。目前,肯定还是在淘宝。大公司其实都差不多。如果英文水平好一点,专业技能过关一点,我当然也想去米国。我女朋友老是催我去米国。
小编:你女朋友现在在哪里(我想问是在美国还是在中国)?
yb:我女朋友在客厅,她身体不大好,需要去米国休假式治疗。
关于 CS 和统计
小编:在数据分析行业,你们觉得搞 CS 的搞得过学统计的吗?
bk:我的感觉是既有统计基础又懂 CS 的复合型的人优势更大。
yb:CS 为啥要跟统计战呢?没有战场吧。除非是 CS 的想要抢统计的饭碗,我感觉没啥必要。不过,如果非要比较的话,按照我们上面的逻辑,理论知识更要紧些。所以,如果数据分析是从统计出发的话,那应该还是有优势的。学统计的在工作中可以恶补编程,这么看的话,CS 要抢统计的饭碗,我觉得还是有点难度。至少我们几个暂时都还没失业,当然啦也得继续努力学习。
bk:我的感觉是编程更多的是经验,程序编的好,肯定是大量编程,不断遇到坑并填平的的过程。理论基础还是更重要一些,比较难学,到现在我对测度、泛函这些东西还是晕乎乎的,好在工作中用不到。这些理论的东西我感觉需要天赋,至少这些理论知识的积累要比编程经验积累漫长的多。
最有用的数学知识
小编:现在回头看,你们觉得数学中最有用的是什么?
yb:前几天还在跟同事聊天,数学系学了这么多,现在用到的也就是加减乘除,最多再用一点开根号啥的。其它比较有用的知识是代数,包括矩阵那些。我感觉做机器学习,理论更多是优化理论。CS、统计和数学这几个学科都是互相有交叉。
bk:感觉也是这些。此外,我感觉理解一些大的东西的时候,学过泛函貌似有点帮助。比如定义“学习”这个概念的时候,学过泛函就会好理解一些。
yb:这个太抽象了。我觉得如果是机器学习或者统计学习,比较基础的是矩阵、概率和优化。如果是数据分析,那就没这些必要。数据分析相对的方法比较固定,更多是把业务问题理解透,然后转化成数据,找到关键的点。更多是对业务的理解能力以及对数字的敏感,加上一些展示的技巧。
bk:我觉得做数据挖掘至少要做成几件比较成功的项目。目前的分析师大多都是从数字中提炼一些观点,写报告。
小编:也就是业务知识 + 数字 + PPT?这是数据科学家的秘籍?
yb:这是 BI 的宿命。
数据科学和 BI 的关系
小编:怎么看数据科学家和传统 BI,有哪些区别?
bk:还是有区别的,传统 BI 主要是做报表,做一些比较粗浅的分析。数据科学家通过更深刻的数据操作,包括清洗和建模,挖掘出更深层次的东西,甚至是比较难于去解释的东西。然后用这些东西去改变运营。传统 BI 往往是配合,数据科学家更多是一种颠覆。
yb:我觉得如果说传统的 BI,它是比较被动的。较早的 BI 主要是出报表,是在对数据和业务的理解之上的一种整理工作。往前走一点是做分析,分析一些现状,是统计。再往前走一点会有一些解释和探索性的分析,研究为啥会有这种现状。然后就是有一些反馈,比如通过数据怎样做优化。数据科学更多还是要再走得前面一点,能够提出更多创新的思路和方法,不仅指导运营,也可以指导产品,有的时候本身也可以包装成产品。所以其实就是不同的发展阶段啦,或者说分工不大一样。
论数据科学家的自我修养
小编:按照你们的理解,当数据科学家最需要哪些自我修养?
yb:对问题的把握、对数据的折腾、对算法的选择、对结果的解释。
bk:我补充一点,还要生产一些可以复用的工具,提升自己和别人的效率。也就是造轮子,我的感觉现阶段 BI 的重复性工作很多,造轮子是必要的。
关于大数据
小编:你们怎么看大数据?
yb:我要去买内存。
bk:我去用你买的内存。
小编:解决大数据,靠算法还是靠硬件?
bk:我的感觉,“大数据”目前的阶段还处在硬件阶段,能把海量数据存下来已经很牛了,真正产生价值的东西还很少。
小编: 推荐两本书吧!一本跟数据分析相关,一本无关的。
bk:ESL(The Elements of Statistical Learning),这本我先推了。另一本我推阿城的《常识与通识》吧。这本书现在市面上难找了,要不我推荐个北岛的《城门开吧》?阿城的这些书政治味儿比较浓,怕查水表。
yb:编程语言方面推荐《Data Manipulation with R》比较实用,分析的书籍看过的太少了推荐《应用商务统计分析》。非专业书籍,这个各人口味差异太大了,我最近看的比较有意思的书是《图说日本住居生活史》。
尾声和花絮
小编:你为什么叫大刀?
bk:我叫大刀的原因是小时候看一个以东北火车站候车厅为背景的情景喜剧,里面演员有句台词叫“干哈呢,耍大刀呢?!”,当时觉得很霸气,就给自己起这名了。
小编:大刀,你很魁梧,我一直觉得你像个将军。
yb:我也觉得大刀很魁梧,吓死我了。
bk:我勒个擦,你更魁梧好吗!
bk:最近有没有什么好看的电影?推荐下,明天休息想看个电影。
yb:前几天国庆带我女朋友一起重看了《黑暗骑士》三部曲。最近看了《红猪》感觉不错。男人过了四十岁就会变成猪,大家保重!
bk:身体锻炼起来(就不会变猪了)!
yb:明天去爬山啊,要不要一起?
bk:不爬了,起不来。我宅着看个电影吧 ……