Loading

数据科学家访谈系列:黄帅

太云邀请我为统计之都写点跟个人经历有关的事情,大概是去年我上班之初就说好了的事。我一直犹豫没有动笔,主要是我本人刚从学生转变为老师,处于一个特殊时期,因而说话常常搞错对象。太云说,随便写写,想写什么都行。我理解太云的意思,就是说,我可以回顾自己的过去,然后为后来的人提个醒或者给点诀窍。一方面来说,对于推动行业发展,这种行为是应有之义。对于我本人而言,我也一直盼着那些牛人们能多给我提点醒,好让我获得更多的思维方式。但另一方面来说,我觉得我能确切的说出来的东西好像不多。我可以讲讲我对统计的理解,但是,虽然我也做过一些新的模型,我觉得其实我一直都只是在练习统计。更恰当的说,我一直在模仿那些先哲们的分析方式。我觉得我也还可以讲讲我是怎么在众多职业中最后跟统计搞到一起了。这比较八卦。也许这也是人民群众喜闻乐见的部分。对于我本人的职业定位,我觉得我是一个做学问的。之所以说是做学问的,是因为,我一直以来有这种偏见(有人可能会不同意):真正的大师从来都不是‘做’学问的。起码牛顿和 Fisher 那种学问,不像是一点一点做出来的。但我乐于做点学问,这样有功于世道,说不定有朝一日也能做点大学问。所以,我在这里要说的,大部分都跟以上所提到的有关。

 

1. 简要介绍一下你自己

 

我是 2003 年八月进入中国科学技术大学的少年班系的。我们系的管理风格比较自由,除却第一年必须上数学系和物理系的几门基本课程以外,接下来几年就是自由选专业或者更换专业了。我们的选择有很多:数学,统计,物理,金融,管理,生物,计算机,软件工程,电子,等等。我们有一年的时间去了解这些之前不太可能了解的学科。当然,实不相瞒,大一那年我大部分时间花在了星际争霸上,所以到了选专业的时候,我看了看那一串以 00 开始到 023 结束的编号,选了编号为 001 的数学。我这么说,其实意思是:我已经忘记了我当时是出于什么动机,反正最终我进入了数学系读数学。可能是因为大一开始学习的数学分析开阔了我的眼界吧。印象很深的是那些(被我称之为)令人震撼的真相:比如如何用严谨的分析方法去证明0.99999999…=1,如何构建那些奇奇怪怪的函数和曲面,为什么任何连续函数都可以被泰勒展开无限趋近,还有通过迭代制造分形,等等。还有,只要一个函数连续,我们就可以预测(未知)?这太让人感到鼓舞了。总之,从那时起,我上了很多数学的课,包括一些艰深的方向,比如实分析和复分析,微分几何,近世代数。众所周知,数学是高度抽象的学科。当然,也因为这些东西艰深,我有点读不太懂。另外,我不怎么去上课,所以考试也考不好。坦白说,我大学时候成绩很差。

 

2. 请谈谈当初为什么选择进入统计或数据分析领域

 

我确实不记得自己一开始为什么选了数学。但对于我为什么选了统计,我记得很清楚。为了突出“我确实跟统计是有真感情的”这一效果,先这么说吧。我通常都是这样应付考试的。每到学期快结束的最后一个月,我就去找我的同学把他们的笔记和作业全部复印了,然后在图书馆里坐上一个月。当我开始准备的时候,我的教科书什么的都是崭新的。这意味着,我那本陈希儒写的数理统计还散发着油墨的味道,放在我的抽屉里都放了半年。这样的一个月常常是如清教徒一般的坚忍和虔诚的。跟很多书一样,那本数理统计我也是从第二章开始读的。读了大概一个星期,终于在一个晚上,我把那本书读完了,作业也做完了,还有点时间,我就开始饶有兴致的看第一章。我想看看陈希儒这位统计届为数不多的院士会说点什么。他或许会说,统计是怎么怎么厉害,是如何如何重要,对于国民经济发展能起到什么作用,等等。如果他那样说的话,也许现在我还在数学系里继续苦读数学,更有可能跟我学数学的同学们一样转行金融了。当然,他如果要这样说,也是对的。但这不一定能对一个不了解统计的本科生起到教育的作用。陈老师具体说了些什么,可以参见他的著作,我就不做赘述了。总之,我当晚把那第一章读了很多遍,然后我又找了找关于统计的各种资料,如你所知,不久我就转到统计方向去了。我是充满了很大的热情去读统计的。美中不足的是,我还是很少去上课,早上实在起不来,所以 GPA 也继续保持下降。但这期间我自学了很多统计,比如非参统计、多元分析、密度估计、机器学习,还有 Hastie 那本《Elements of Statistical Learning》,一些生统的书,等等。我学得怎么样不好说,但 Hastie 那本书确实更加坚定了我学习统计的目标。

 

3. 请谈谈你的研究成果、贡献

 

我的研究兴趣主要是以问题驱动的。这意思是,我对推动纯统计理论没有太多兴趣,我更多的精力放在怎么解决一个问题上。很多人,尤其是统计学家,并不理解建立一个模型和解决一个问题有什么区别。其实仔细想想,我们要模型干什么呢?我们人类的知识大都是以因果关系这种定性的状态存在的,谁会记住一个回归方程的系数具体是什么值?当然另一方面,我们必须要有统计模型去理解我们所观察到的方差或者说差异(variation)。缺乏必要的统计训练,常常会被各种类型的差异(variation)而感到困惑。有关这方面的经典例子,可以参考 Edwards Deming 的相关讲座和文章。

 

有时候我也会读一读那些理论大牛写的文章,比如 Peter Bickel 这样的能将一个 community detection 的问题用严格的统计语言表述的人。我很敬佩他们能将一块硬如顽石的理论问题分析得那么透彻。但相比之下,我还是更加敬佩 Fisher、Box、Jeffrey 这样的能把统计的理想和现实的问题结合得那么好的人。 出于行业的局限性(我应该算工业统计的范畴),我对本行业的大牛们 Georege Box,Jianjun Shi, 甚至是 Edwards Deming (更像一个管理大师而不像统计学家)的工作很仰慕,并一直以他们的工作作为榜样。目前我的研究范围主要是医疗和制造业相关的,比如疾病的病理学研究和建模,例子比如 Alzheimer's, Type 1 Diabetes。这些疾病的一个共同特点是它的病理并不清楚,而且其病理通常早于发病很多年。这给予我们的暗示是:如果我们能通过测量人体的各种数据而将整个发病机制建模,并且标示各个阶段,那么我们就能在早期预防这些疾病了。我还有一部分工作是跟医院的数据相关的,比如用医疗记录去预测病人会不会重新入院,病人会在医院呆多久,等等。分析这种数据很具有挑战性,简直就是教科书中的统计模型的噩梦。如何建立新的模型去理解这些数据,并将其结论与以前的经验,以及整个医疗系统的运行方式结合起来,是我认为能够真正解决问题的途径之一。这也是我所说的,我的研究兴趣是通过统计来解决问题。

 

4. 你常用什么模型以及软件?

 

我一般用 MATLAB 和 R。我也很喜欢 SPSS 这种快捷易懂的傻瓜软件,尤其是我在探索一个新的数据的时候。当然,近几年我渐渐依赖于 R,因为它包含大量的免费包和十分有效的视觉表达。

 

5. 谈谈你这么早上学这么早当教授的感觉和影响,包括好坏。

 

其实我在少年班算是年长的了。周围的人(不是少年班的)也并不把我们当小孩看。所以总的来说,我们对周围事物的感觉和一般速度成长的人也差不多,除了在一些场合接受令我们感到无地自容的赞赏以外。当然,很多少年班的学生是很有上进心的,还有很多人确实是在某些方面天分惊人。跟这么些人在一起,大家压力都不小。

 

6. 谈谈除了学术方面的兴趣爱好?

 

其实我爱好蛮多的,比如打游戏吧。这爱好我一直持续至今,只不过出国以后就没怎么玩了。出国以前我玩轮滑,也喜欢搞搞数学建模。出国以后,怎么说呢,我的兴趣爱好就是坐在家里,坐在书房里,要么看着电脑,要么看看书。也不太出门。呃,我想,这就是所谓的要进入而立之年的节奏吧。其实我是想说,目前的工作很繁重,在美国走教职大概就是这个样子。

 

7. 对统计之都有什么建议

 

我从 07 年开始关注统计之都,在这里认识了不少朋友,也写过一两篇主站文章。我觉得统计之都是一个很好的交流平台。在国内 R 的推广,它也是先驱之一。我一直很看好统计之都,我觉得它正处于它的青年时期,有很多方向可以尝试。作为一个大样本里的读者,我个人希望看到的是一种自由风格的探讨。我的意思是,既然是一个民间组织,我们写文章,读文章,完全可以抛弃权威这个概念,不必引经据典,而是基于自身对统计的理解来写来读。

 

8. 你对目前火热的大数据怎么看待,以及统计学在其中扮演的角色

 

关于大数据,我没有第一手经验。虽然我处理的数据通常也不小,在 G 这个级别,但是跟大家所讨论的大数据似乎还有点小儿科。在大数据这个范畴内,统计学或者数据挖掘这一块肯定是相当重要的。但大数据应该是远远超过了统计学的范畴。有一次和一个搞数据库的朋友探讨大数据的事情,他问我,什么才是大数据?我的回答令他很不满意。他说,他们行业里认为,大数据是那种传统的数据库已经完全不能解决存储和查询的问题的那种。因此他觉得,解决大数据问题应该由他们搞数据库的人来主导。当然,我朋友只代表他自己的意见。我们都有自己行业的偏见嘛。所以他又同时表示,如果只是存储和查询,那么也不可能吸引各行各业那么多人的关注。总之,我感觉大数据的主要挑战还是工程方面的,它涉及怎么把各个行业的现有的能力整合起来,来实现数据中的价值。这样才能构成一个新的经济增长点。大数据代表了一种极端的复杂性,极端复杂性意味着其解决方案必须是多样,而且简单明了。

posted @ 2014-07-29 09:27  dai.sp  阅读(273)  评论(0编辑  收藏  举报