数据科学家访谈系列:谢梁(微软)
原文:统计之都
谢梁,现微软(西雅图)高级数据科学家,在各大 SAS 论坛混迹的朋友也许不知道他的真名,但 oloolo 这个 id 可能大家都非常熟悉。本站小编谢益辉有幸在西雅图得遇谢梁真身:本家相逢,又是同行;把酒言欢,各自买单;幸甚至哉,采访即来。谢梁的个人技术博客在 http://www.sas-programming.com 。(因为现在不用 SAS 了,目前更新速度比较慢),更多信息,参见 [LinkedIn 页面](http://www.linkedin.com/in/liangxie/ )
1. 请介绍一下你自己(例如教育背景,研究兴趣,个人爱好,工作经历,灌水经历,吃不吃辣等)
我 2000 年从西南财经大学金融系毕业,毕业后到中国工商银行工作。一年后辞职到纽约州立大学 Binghamton 分校学习应用计量经济学。我博士导师 Subal Kumbhakar 主要研究领域是生产力分析和应用计量经济学,包括面板数据分析和随机边界分析,不过我对一般统计方法更感兴趣。研究兴趣主要是各种混合模型(Mixed Model)和数据挖掘的方法,还有就是挖掘 SAS 的潜力。。。。这些也跟我的工作有关。最好的工作就是你感兴趣的工作,我觉得这方面我很幸运,每天把自己的兴趣爱好抽一块出来就完成工作了。
平时爱好越野和户外活动,对美式轻卡和各类越野车兴趣很大。上网灌水也是爱好之一,在 SAS 论坛帮人解决编程问题并且学习别人的经验也是我自己 SAS 编程水平提高最快的途径。
2. 请谈谈当初为什么选择进入统计或数据分析领域(例如受谁影响最大,欣赏统计的哪方面)
我在中国工商银行从事信贷评估,算是很不错的工作,但是因为两个原因选择出国进修。一是确实不胜酒力,身体吃不消;另外自己本科时候就对数量分析兴趣很大,本科毕业论文用回归分析研究货币流通速度对通货膨胀的影响,虽然只是把课本上的样本模型运用中国的数据跑了一遍,但是觉得是很神奇强大的工具,有必要深入了解;后来在从事了信贷评估工作以后发现实证数量分析确实是商业价值巨大,于是选择出国学习计量经济学。
研究生计量经济学头两门课是我博士导师授课,用的是 William Greene 那本著名的计量经济分析,因为他是我老板的好友。不过个人感觉这本书当做参考书更合适J。虽然上课都在推导公式,不过对于公式的来龙去脉没有更深入的讲解,我觉得没有学通,于是跑到数学系旁听统计课(SUNY-Binghamton 的统计学在数学系里面),我导师也鼓励我去数学系跟班学习更深入的理论。虽然跟他们的博士生一起学习考试压力山大,但是这方面打好的基础对我以后进一步扩展自己的知识面帮助很大。在数学系修了测度论和很基础的抽象代数,因为起点低,学得时候很痛苦,但是学完了以后再看本专业论文就有从一目一行变一目十行的感觉,这个变化我觉得很神奇。
学术上自然是受博士导师影响最大,最重要的一点就是要博闻广记,相关的领域都要涉猎一下,看看别人在他们的领域有没有跟自己类似的问题要处理,如果有别人是用了什么理论,方法和工具,自己能怎么改进一下。拿来主义换一种说法就是交叉学科。。。当然这个是我的理解。
3. (在不涉密的前提下)请谈谈你的研究成果、贡献(例如最自豪的一篇论文或最成功的一个项目或最有趣的一个研究话题等)
我不是从事科研工作,所以谈不上什么研究成果和贡献。最近我跟俄亥俄州立大学的 Laurence Madden 教授合作的一篇论文刚被 Journal of Statistical Software(JSS)接受了,是基于 SAS 的 HPMIXED 写的解大规模广义线性混合模型的 %HPGLIMMIX 宏模块,对植物学,基因学以及实验设计需要用到大规模广义线性混合模型的研究人员应该有用。相对于 R 的 lme4 包,因为 HPMIXED 对固定要素和随机要素的设计矩阵都应用了稀疏矩阵的算法,而 lme4 目前只对随机要素的设计矩阵应用了稀疏阵算法,所以对于很多含有大量固定要素的实际问题还是没我们的 %HPGLIMMIX 宏快。在 SAS/STAT 12.1 里面,HPLMIXED 既支持分布式计算也支持多核多线程,这个宏稍加改造就能用这个最新的分布式计算高性能过程,所以在速度和模型规模上近期能保持对 lme4 的一些优势。
至于项目嘛,厚脸皮地自夸一下,我做的都很成功,就简单的谈一个。我在一家能源公司做高级分析师的时候,需要帮他们分析智能电表汇总的数据。智能电表每隔 15 分钟把用户的用电量回传给我们的服务器。当时管理层知道有这个数据,但是不知道怎么把这些数据变为有用的资产,于是我就领命,负责规划一个商业案例,把这些数据用起来。这个有两个难点。一是从业务上这是个开放式问题,没有具体的问题要解答,也没人能给与指导,大家都等着看我搞出个东西来;二是相对所使用的硬件,在技术上这个也算个 big data 了,因为我们有 50 万住户 1 年多的数据,每人每天 15 分钟一个观测值,大约 30 个 GB,而我只有一台普通 DELL 商用电脑,4GB 内存不过是 32 位 Windows 操作系统,硬盘虽然有两个,但是都是 5400 转的。还好我有 SAS 和 R。我在 R 里面把用 SAS 随机选出来的 1 万名用户每天的总计用电量处理以后画了一个光栅图,发现和基因表达研究里面的 microarray 很像,后来应用了 2001 年 PNAS 上 Orly Alter、Patrick Brown、David Botstein 的一篇文章里介绍的用奇异值分解矩阵降维去噪,再用基于第二三个特征向量和观测值的相关系数做聚类分析的方法研究了数据,发现了潜在的商业价值。具体的计算是用 SAS 解决并 R 验证,画图是用的 R,因为公司没有买 SAS 图形模块。
扎实的数据分析、漂亮的图表帮助我把这个项目成功地向管理层推销了出去。从构思商业案例到寻找分析手段并且在比较落后的平台上实施再向管理层推销花了我不少心思,也让我学到了很多东西,受益匪浅。
4. 你常用什么模型以及软件?
我本科时候用 SPSS,毕业以后再也没碰过。研究生的时候主要就用 SAS,博士论文的模型计算都在 SAS 里面编程,我不得不说如果当时用 R,我的论文写作会轻松许多。后来在工作中用了 R,觉得比 SAS/IML 方便,一是整个框架比 SAS/IML 先进,二是现成的统计包很多,对于很多东西能够信手拈来直接用,节约很多编程的时间。R 的绘图比 SAS 要更简便,驱动好。现在主要用 C# 和微软内部的一种系统,有时候用 R 和 Python。公司没买 SAS 给我,就不用 SAS 了。当然 SAS 在处理低于 10GB 级别的数据上还是很有优势。而且 SAS 按行处理数据的方式比较符合大数据时代的编程模式。值得提的一点就是我一直在用的分析软件当属 Excel 无疑。微软最新推出的 PowerPivot 和 PowerView 给予 Excel 2013 非常强大的数据分析能力。
我对统计模型没有偏好,哪个适用于我的分析我就用哪个。我的工作有时候需要很复杂的数学模型,有时候只需要按照类别算几个简单的平均数,具体情况具体分析,这个能力本身也是工作技能之一。
说到底软件和统计模型都只是解决具体问题的工具而已,了解这些工具,学会选择用什么工具是一个很重要的技能。
5. 从面试官的角度来说,统计和相关专业的应聘者参加面试时应该注意哪些方面?
统计或者相关专业本身是个辅助角色,是为决策者定下决心提供参考意见的一方。从这方面考虑,对这些专业的面试者就有几个要求。
第一,理论上对本专业的基础要扎实,特别是不能只知道推导公式,而是要知道如果应用了某一个统计概念,那么就必须对这个概念背后的背景知识,假设和利弊,以及典型案例都有深入的了解。了解背景知识和典型案例有助于向没有任何统计背景的决策者解释如何理解你提供的参考意见;知道假设条件和利弊有助于对别人可能的疑问做到心里有数,被问到才不慌,人不慌才能给决策者信任感,有了决策者的信任感,你的成果才能推而广之。
第二,从技术层面,现在最重要的是要有较强的编程能力,很多人都说自己会 SAS,会 R,会 Python,几年经验,但是这些软件涵盖的范围都很广,需要学一些计算机算法的东西,并且集中把几个方面的东西都学得比较深入,就是能达到茴字有几种写法的程度。很多人觉得没必要,我个人觉得其实很有必要,特别是对于面试来说。那么我就来谈谈面试。
面试的时候,必须要带着面试官走,而不能被面试官带着走。这需要两方面能力。一是自己掌握很扎实的知识和技能;二是面试的技巧,缺一不可。面试技巧很多,讲解的文章和书籍也很多,我只谈一方面。在面试官问了一个问题以后,不要急着回答,而是要先分析他为啥问这个问题,然后从这个问题可能涉及的背景出来来回答。举例说明:面试官小明问面试人韩美美,如何知道在美国各种颜色的轿车占什么比率?如果韩美美一上来就回答具体怎么做不算好的回答。相反,如果韩美美先向小明指出他问的这个问题属于估计总体的问题,就能给面试官一种高屋建瓴的感觉;然后具体指出针对估计类问题,可以应用采样的统计手段,而统计采样就可以多种多样了,比如可以到选取几个典型的大购物场的停车场去采样,看看各种颜色轿车的比率;也可以上网查阅销售数据,也可以给各个汽车公司发调查表格等。最后再解释一下各种方法在实施上以及效能上的利弊,那么这才算一个完整的答案,而且是牵着面试官沿着你的思维在走,可以有备而来;否则面试官可能针对任何一点提出完全意向不到的问题,情况就很容易失控。
在统计分析中,很多问题有很多种分析角度和方法,对照着研究学习就能了解不同方法之间的差异。平时练习茴字有几种写法其实就是这么一个过程,帮助自己深入了解和比较所学理论和工具的优劣,从而达到对真个体系融会贯通的目的,那么无论面试官怎么问,你都可以变被动为主动,从容引导面试官顺着你的思路来认识你的优点,顺利拿到工作。
6. 对统计之都有什么意见/建议?
我还没资格对统计之都提意见。统计之都搞得有声有色,红红火火,好文章越来越多,名气越来越响。作为读者和粉丝希望能看到更多更贴近商业应用,贴近最新技术发展的文章,尤其是现在统计分析和大规模计算越来越密不可分,这方面的专题会吸引很多读者,比如最近的 RHadoop 就很不错。另外做一些比较客观的统计软件功能比较也许很有趣。
7. 牛排你通常要几分熟的?
Medium rare