[Z] 北大一牛人生物转申CS的经历

http://www.bdwm.net/bbs/bbscon.php?board=CIS&file=M.1367038121.A&num=626&attach=0&dig=3

很多人问我申请的过程,我申请了两季,12年和13年。毕竟申请过两次,有更多的教训和 经验,因此在这里我想把我的一些想法分享给ddmm们,希望能对今后的申请有所帮助。麻 烦大家不要转到社交网络上去。 先简单介绍一下我自己,08生科。12年申请北美BME和computational biology方向PHD。 12年八月去了cornell的ECE/BME项目,原本应该去做bioinfor之类的。去cornell之后决 定转申cs,方向 NLP(自然语言处理)和 ML(机器学习)。科研背景:申请bio时做过一 些计算生物学科研,后来北大这边bioinformatics那边不收出国的本科生。2012年3月初 开始,当时因为偶然的原因,在北大计算语言所(ICL)李素建老师组做毕设,一直到八 月。到了cornell以后,在cornell nlp组 Cardie Claire组里面继续,一直到现在。截至 12年12月申请时,硬件上一篇Coling一作长文,两篇TACL 一作长文,一篇NAACL在投(后 来被拒了),这些都是nlp领域的会议,若干师兄师姐挂名二作三作。 申请结果: 2012: Offer: Cornell (BME&ECE)(accepted), Columbia(Biomdeical informatics) , Duke(BME), JHU(BME), NorthWestern(Computational Biology& bioinformatics) , UCLA(BME),UIUC(bioinformatics&computational biology) Rejected: Stanford(Bioinformatics), Harvard(System Biology), Princeton (System Biology), MIT(Bioengineering), Berkeley&UCSF(Bioengeering) 2013: Offer: CMU(LTI,ML)(accepted). MIT(CS). UC Berkeley(CS) Rejected:Stanford(CS) Withdraw:Princeton (1)cs 申请 如果比较12年和13年的申请,会发现12年第一个梯队的学校几乎都是reject(JHU 的BME 算例外),10名开外的学校中的很多。当我以过来人的身份回忆,那时候被拒是有原因 的,推荐信平平,科研平平。但对于这种top program 仅仅GPA是不够的。 我记得在我大二大三的时候,看见以前师兄师姐的申请总结,他们一般都会给GPA 科研 GT 排个先后顺序。那是我并不太在意,因为那个时候可能对GPA更加看中(我想这也是你 们的现在的感受)。那时候感觉,GPA是能看得见摸得着,而科研貌似是个遥远的事情。 现在回想过去,当年师兄师姐真的是对的。 如果现在让我来排名: 推荐信==paper 然后是 GPA GPA 没有那么重要,但这句话是有条件的。条件是你有第一第二做保证。大多数undergr aduate是没有paper的,推荐信一般是国内的教授,也是是说第一和第二是相同的,那只 能去比GPA。而且你会发现,我甚至没有把GT放进去,因为用处不大。现在想来当年两三 个月整整的时间去准备GRE,似乎是挺愚蠢的一件事儿。GRE语文550(我对新G分数标准不 太熟悉),跟700没有什么区别。托福口语22貌似是个threshold,也只是听说。 先谈推荐信。推荐信我认为是最重要的,如果你能拿到国外推荐信的话,我把13年的申请 主要归功于推荐信和论文。我的两封分别来自cornell的Claire Cardie和Noah Smith(CM U), 以及李老师那封迄今为止我见过的最positive的推荐信。 在国外大多数领域里面,老师们都认识,甚至都很熟,他们每年开会都会见面,像nlp领 域,每年他们至少碰两三次,acl naacl和emnlp,领域里面的人几乎都去的(ml领域应该 是ICML和NIPS)。而且每个小领域都有一个小圈子,各个领域都是。如果认识给你写推荐 信的人在委员会里面,事情会好办很多。 Cliare 和 Noah 本来就很熟。对于我们来讲, 外国大牛的推荐信是不容易得到的,但并不是一定不可能。开会就是一个好办法,Noah S mith 恰巧是我一篇TACL文章的action editor,而且他在cornell讲座的时候我跟他聊了 很久,对于跟noah的聊天,我也准备了很久,更何况本来跟他做的东西有很多overcross 的地方. Claire 是nlp领域的大牛,在美国确实近水楼台,而且claire是个非常非常nic e的老太太(我真的很庆幸,遇见了两个这么好的老师,Claire和李老师。Claire有多ni ce 后面还会提到)。比如 MIT nlp组的 Regina Barzilay曾在cornell工作,应该跟cla ire很熟。 UC Berkeley的Dan Klein是从cornell走出来的。如果能有一封大牛的推荐信 ,很重要。至于国内的人,他们基本不认识,哪怕是MSRA的,基本也不知道是谁。生科有 很多出国实习的机会,但信科这边很少,因此把握住开会的几乎很重要。而且我说过,这 些人每年NAACL ACL基本都会去的,你如果中了这些会议的文章,会上抓住机会,拿到一 封推荐信就不是难事儿。 再次,谈谈科研。paper很重要。申请重要一点,是申请方向的match,申请要specific, 太general我感觉不是好事儿(哪怕你去了以后不想做了,那是去了以后的事儿,申请时 候还是specific一点比较好)。我第一年的申请没有明确方向的,bioinformatics和BME 有很多子方向。13年,我的方向彻底局限在nlp和ml。ml那时候也只集中在non-parametr ic bayesian。nlp这个方面虽然也有很多subtopic,但已经比较specific了。我以为国外 的老师还是比较喜欢方向对口的学生。 科研对运气要求很高,作为本科生,入门快能发论文的方向很重要,毕竟一个本科生最多 有不到两年的时间做科研。学科和学科,方向和方向之间差别很大。举个最简单例子,传 统的bio实验周期就很长,审稿几乎就要一年,两年可能压根做不了什么出来,但cs这边 相对短很多。我对cs其他领域不熟悉,但总之本研找一个相对容易入手的方向很重要。说 的赤裸裸点,可能为了发文章而发文章,如果说phd期间这种功利的想法未必是好事,但 本科生却不一样。而且,据我所知,nlp 和ML 这边主要以会议为主,审稿周期较短,也 就一两个月。 导师也很重要,因为我们知道大多数老板是不管本科生的。我的运气很好,遇见了李老师 ,而且最开始她给了我一个可以发paper的课题,当然后来再做就是我自己选了,来了co rnell也一样。李老师算是我见过的老师里面最好的两个老师之一(另一个是Claire)。 她是associate,在信科并不是多有名气的老师,我估计甚至很多信科的同学都没有听说 过她,ICL在信科也不算大所。我的第一篇coling长文,大概是在12年6月底完稿,那是还 是毕业季,这个文章是李老师全部写的(因为我第一次写文章写的太差了),我做的实验 ,这种情况在其他实验室几乎很难遇到的。我在所里工作的将近半年时间,如果我有问题 ,我可以随时直接去隔壁敲门,然后她会放下手里事情跟我讨论,我说的随时(如果她在 办公室的话),有的时候我一天会找她两三次,能做到这样的老师应该更少了。李老师人 好是一个方面,客观地讲,组里人少也是个原因。李老师组里面也就四五个人。在北大, 一个老板带十几二十个学生大有人在,就算他想帮你,他的时间未必允许。因此如何选一 个合适的组就很重要。大组的老师可能名望相对大一些,那就要看你如何选择了。毕竟, 申请导师的国外关系也是重要一环,有时候甚至可能变成唯一的救命稻草。 发了论文就可以去开会。这是骗推荐信的好时机。更何况,文章可以说明一切,可以补充 GPA GT 等等的不足。 再次,套辞。套辞是有用的,但是我们知道,大多数老板是不理你的,即便是claire这么 好的老板,这种套辞邮件一般也不回的,因为国外教授真的很忙。我认为单纯目的为了套 辞而套辞几乎是没有用的。那些 I am interested in your researches. So I am wond ering whether you have plan to take PHD students this year. 这类话我认为真的没 用。我12年的时候,狂发了数十封这样的邮件,结果基本一样。顺利的套辞,要看你对领 域的熟悉程度了。我们知道如果领域相近,我们有可能读过某些人的文章,甚至把他们的 model作为baseline,这不就是套辞的大好时机嘛。还有我认为,套辞可以尽量早,不要 赶到九月份以后,否则傻子都知道你想干嘛,保持适当的联系,可能会有用,只是可能。 我并没有太好的套辞经历可以分享,12年根本没人理我,13年我也没有去套。 以上是我想说的三点,我并没有提起GPA和文书,并不是说GPA和文书不重要,这是在第一 点和第二点的前提之下。但相比推荐信和paper,我认为gpa逊色不少。文书我没有验证, 真的不知道是否重要,因此也没有什么可以跟大家分享。我申请文书写的很仓促很短,我 12月13号从印度Coling回来,才开始写文书。总共也就两三天。最后在Berkeley的ps中, 竟然写的是“Stanford is my dream school,dream of the dreams.”,提交了之后我 才发现,当时真是哭笑不得,最后也没改。小秘告诉我 “don‘t worry, it always ha ppens.” 我以为,如果你对一个领域了如指掌,文书就会很好写,相比于我12年挣扎地 写文书,13我就写得相对轻松。对于写你的PHD的future work,你只要你现在想做的还没 有做的写进去,这样既 make sense,又避免了空话套话。如果你说你想develop effici ent inference algorithms in machine learning,大家都知道你在凑字数。如果你说, I wanna extend high-dimensional techniques to NLP field,这就很make sense,毕 竟这确实是现在大家准备开始做的话题,如果能在specific一点,比如谁谁谁,在哪里发 了一个什么,这个对我很有启发(比如 Ping Li在2013 NIPPS 的random projection文章 ,可以很好推广到到nlp领域,比如说跟CRF结合,把feature推广到高维,我只是举个例 子)。这样不仅让人家看到了你的想法,更让人看出你对这个领域的熟悉。 我对师弟师妹的建议是,要把一半的时间放在科研上,没错,是一半,甚至更多(大学大 概的情形,我们不必要平时花太多的时间看课本,还有你会发现有些课程的分数不是你能 左右的。我不想误导大家,希望大家能恰到好处理解我的话) 一年半的时间,如果用心 足够让你成为一个小方向的专家,你会看完这个小方向几乎所有的主流paper。进实验室 做科研之前,我建议,大家不要仓促,一定要花一个月或者两个月去观察,去看,去问师 兄师姐。去看这个先实验室老板怎么样,重视不重视你,课题怎么样,实验室气氛怎么样 ,千万不要着急,磨刀不误砍柴工。你phd申请的方向很有可能就是你本研的方向。我很 多周围的人科研期间厌恶了research。大二的下学期是进实验室的好时间,可以在大二下 学期开始的时候物色。MSRA同样是个好选择,他们很高产,相当的高产,不过门槛可能相 对很高,需要内推,而且全职实习。如果有机会去那里实习,一年半的时间攒两篇top论 文不是难事儿。 (2)Out of Biology: 生信离cs有多远? 我没有劝退的意思,只是希望大家能找到合适的喜欢的并且可以养活自己的科研方式,做 bio也可以做的不错,看兴趣了。但如果想转cs,希望我的建议有点用。我没有真正彻底 接触过bioinfor,因此很难预测他们跟cs差别多大。但如果你发现,很多计算系的教授都 在刷生信的文章,比如Eric Xing,甚至Micheal Jordan,这是个可行的办法。12年申请 ,我reject掉了哥大以后才发现,在哥大的biomedical informatics,很多人就是在做纯 粹的nlp,比如 Noemie Elhadad. 对于已经读上的生物phd的同行,我的经验未必是个借 鉴,因为里面有极大的偶然性,不能保证运气如此地好遇见两个好老师,也未必保证课题 多么快地出成绩。不过,在美国的近水楼台不得不说是个好办法。 我记得我第一次去找Claire的时候,她当时说没有funding,你可以先在我这里干一干。 一个月以后她说,你可以在在我这儿读phd,你也可以换个地方。如果你能去更好的地方 ,那就更好。如果你去不了,你可以再留在我这里。我当时真的感动死了。我的感觉,美 国教授对quit这个事情不太在意,claire就说没关系,很多人他们来了以后change thei r minds。我在跟ECE的Perter Doerschuk说要quit的时候,他也很支持。而且说你可以一 直在claire那工作,funding一直到学期结束。claire甚至说提供暑假的funding。不过, 相对美国人,我们中国人的思维方式就有点不同了,他会用一些传统的想法去约束。我在 cornell第一学期选过一门中国老板的课,当我去要推荐信的时间,当他听说我想要重新 申请的,发生了一些不愉快。这并不是他的错,这个中国老师人也很不错,文章很牛,对 学生也向来很好,他甚至每个月多给学生发600刀的资助。但可能就是我们传统观念的不 一样。从这个事情上,我确实感慨freedon的概念在美国人心里早已生根发芽。 其次读个cs的master也是个很好的选择,一来master足以找一个像样的工作,二来在mas ter期间有足够的时间接触到像claire这样的老师,再读phd也会相对容易。 总之,我压根没有一点全退的意思,可能也是我意识到了自己未必适合做生物(我讨厌实 验)。大家能找到自己希望的方向最重要。 (3)选校 最后谈谈选校。Machine Learning和AI是近年来很火的一个方向,大多数美国人对这都挺 有兴趣,NG andrew曾经甚至提到说有一半applicants在ps写到要去做ML或者AI的方向。 我认为这个方向确实要比system,architeccture或者network略微难一些。因此我以为, 大家可以不妨避开这个方向,比如nlp就是一个曲线救国的例子,虽然nlp申的人也不少, 但相对可能略微那么好一些。大多数美国学校cs进去了以后再选老师的。下面以我的了解 说说ml和nlp的选校。 stanford:stanford 的nlp强得一塌糊涂,stanford parser在nlp领域家喻户晓,nlp组 主要有Chris Manning和Dan Jurafsky。Dan也是个人很好的老头儿,也是stanford唯一理 我的人。ML方面NG Andrew 和 Daphne Koller。Andrew 因为他的video lecture machin e learning 广为人知,他的这些视频也是我machine learning入门的工具。 Daphne Ko ller的概率图模型视频同样有名。这里还是deep learning的故乡。stanford 学术和工业 气氛并重,当然是任何人的不二选择。所以我被拒了也正常。 cmu: cmu有单独的machine learning department,他们的nlp 一般在LTI department里面,人 很多,老板可以跨department去选,只要他有funding。从machine translation到parse r到twitter,选择很多,人也很牛。在ml系里面,有像Lafferty这种骨灰级大神在里面, 当年CRF依然是现在ML领域最火的算法之一。从学生的发表的文章来看,cmu学生文章很强 ,也可能stanford的学生都是创业赚钱去了。 MIT:MIT的nlp和ML相对较弱,没有什么人。做nlp的貌似只有Regina Barzilay,曾经Mi cheal Collins也在MIT,但去了哥大。Collins很强,他的parser闻名于世。nlp的鼻祖C homsky在MIT,他应该是语言系的,估计已经老得不带学生了。 Berkeley: Dan Kavin经常跟ml那帮人合作,比如Micheal Jordan, berkeley做nlp的人貌似只有他 一个,他貌似什么都做,parser,机器翻译,理论,IR也做一些。Micheal Jordan 是跟 Laffery一个级别的骨灰级大神,LDA的通讯作者,桃李满天下,现在活跃在ml的人很多都 是他的学生,比如David Blei(LDA 一作),NG andrew, Yee Whye The(HDP 一作),E ric Xing, Percy Liang等等。Jordan的组很难进。 Cornell: Cornell做nlp和ml只有三个人。thorsten joachims,以svmlight闻名于世。做 nlp的只有Cardie Claire和Lillian Lee。Claire的nice不用再提及了,她在nlp是big g uy,而且对学生很好,不push(这个可能也未必是好事儿),处处为学生着想。Lillian 也正值壮年,文章也很强。但我对这儿的了解,最近一两年不鼓励大家申请这里,这里 貌似想做这个领域的学生太多,三个组里都几乎饱和,13年申请时claire甚至跟我说 他 们今年甚至不准备录取这个方向的applicants。 UIUC:cs的传统牛校,nlp也很好。而且uiuc对中国人相对友好。 JHU:JHU具有仅次于于cmu,第二大的nlp组,从grammar parser 机器翻译 做到twitter 应有尽有。他们的ml可能相对稍微若一些,但依然是不错的选择。 Upen:我印象里面的Upen的nlp貌似更偏向计算语法,Ani Nenkova,Mitch Marcus 都是 挺有名的人。 除此还有UW,Geogia Tech,Umich就不多说了。 要说我的得与失。一年的时间,又再动荡中过去。虽说一年相比五六年的phd不算什么, 但我又折腾了一年,老了一岁。 写了挺多的,算是讲述了一个过来人的得失,还希望师弟师妹取其精华,去其糟粕。也希 望大家辩证地看我这篇日志,找到一个适合自己的方法。希望大家能从我的经验教训中总 结点什么。 最后,感谢的话肯定少不了。想来,万事开头难,我三月初刚在所里干活的连shell都不 会写,实验室的师兄师姐帮了我不知道多少的忙。记得那时候大眼瞪小眼对着LDA的pape r看了整整一周,也不知道它究竟到底想干啥,多亏有涛涛师姐帮忙。而且更重要的是, 在ICL的几个月(也是我在北大的最后几个月),是我大学里面最快乐的时光,蜜蜂 王荀 菲姐现在都是我最好的朋友,我也希望能把我的快乐带给你们,还有众多实验室的师兄 师姐。当然,最要感谢的是婧婧,如果不是你,我可能也和所有人一样,荒废了整个大学 最后的学期,估计也就不会有这篇日志。

 

posted @ 2016-03-21 10:02  waytofall  阅读(2719)  评论(0编辑  收藏  举报