对话机器学习大神Yoshua Bengio(上)
Yoshua Bengio教授(个人主页)是机器学习大神之一,尤其是在深度学习这个领域。他连同Geoff Hinton老先生以及 Yann LeCun(燕乐存)教授,缔造了2006年开始的深度学习复兴。他的研究工作主要聚焦在高级机器学习方面,致力于用其解决人工智能问题。他是仅存的几个仍然全身心投入在学术界的深度学习教授之一,好多其他教授早已投身于工业界,加入了谷歌或Facebook公司。
作为机器学习社区的活跃者,Yoshua Bengio教授在美国东部时间2月27日下午一点到两点,在著名社区Reddit的机器学习板块参加了“Ask Me AnyThing”活动,Yoshua回答了机器学习爱好者许多问题,干货频频。故作此整理,供远在地球另一面的国内人工智能和机器学习爱好者学习讨论,所有问答的先后顺序由Reddit用户投票决定。以下为问答第一部分:
问:是什么仍然激励着您留在学术界?您对于工业界那种面向产品和创新的实验室有什么看法?他们和学术实验室相比如何?我们在选择两者的时候,学术自由(做想做的事情)是否起到很重要的作用?
答:我喜欢学术界,因为我可以选择研究我喜欢的课题,我可以选择设立一个长期的目标来为之努力,我可以为全人类的福祉来奋斗而不是某一个特定公司的利益,而且我可以非常自由的公开讨论我的研究成果和进展。当然,值得注意的是,在某种程度上,我那些值得尊重的同事们在很多大公司的实验室里也同样有类似的讨论自由。
问:您好,我是一个本科生,您和Hinton教授的工作给了我很大的启发,我有一大堆问题想问,您可以选择性的回答一下。
Hinton教授最近在Coursera在线教育网站上提供了神经网络公开课(MOOC)。该课程所提供的资源和课件让我在内的很多同学受益匪浅。我学到了如何自己训练一个神经网络,迈出了深度学习领域的第一步。所以,如果这个领域的另一个神级领军人物,您,也能提供一个公开课,那将是多么大的幸运,不知道您在这方面有什么打算?
作为领域内的杰出教授,您个人如何看待当代神经网络忽如一夜又火了这个现象呢?您认为是理所应得还是夸大其词?还是两者兼有?或者您有完全不同的看法?还有,您对于当今文献对于神经网络研究的描述怎么看?
我对于利用无监督技术来学习数据选择,以增加算法的普适能力这一块非常感兴趣。我感觉它是监督学习和非监督学习的有机结合,跟传统的预训炼不同。您所在的实验室已经在这方面取得了很多进展,使用“简单”的数据选择方法,比如高斯噪声选择法,即我们在DAE语境下所谓的输入dropout。您觉得这个方向算不算有潜力呢?希望您能给推荐一些相关资料,我找了很久都没找到。
最后,没有人有水晶球来洞悉未来,但是您能谈谈您研究工作的下一步展望么?比如,过去几年基本是监督学习占了上风。
答:首先我目前没有公开课的计划,但可能未来会开设一门。最近我在写一本深度学习方面的新书,内容比较全面(和Ian Goodfellow和Aaron Courville一起写)。过几个月可能会放出几章草稿,非常欢迎社区和同学们提出宝贵建议。注意Hugo Larochelle(我之前的博士生,Hinton教授的博士后)有一个很好的深度学习视频(在他个人主页上还可以找到课件)。
我觉得最近大家对于神经网络的极大热情,主要是因为机器学习同仁们浪费了多年的时间,1996到2006这20年,几乎从来没深入挖掘它。现在这个时候,确实有一些对于神经网络的夸大其词,尤其是在媒体上。这是非常不幸的,同时也非常危险,会被一些想要一夜暴富的公司所利用。危险尤其在于,一大波天花乱坠的许诺出来了,结果没有出色的实验结果作为根据。科学在大部分时候都是小步前进的,我们必须要谦逊。
我没有水晶球,但是我相信改进我们对于联合分布的建模,在未来深度学习的研究中,尤其是朝向人工智能级别的机器方面,非常重要,它能帮助机器更好的理解我们周围的世界。
另外一个比较容易预见的工作,是我们需要在训练高复杂度模型的过程中,找到快速有效的训练方法。不光是在训练模型本身(涉及到数值优化问题),而且在计算能力方面(比如通过并行或者其他的技巧来避免每个样本在训练的时候都牵扯到整个神经网络的更新)。你可以在arxiv上找到我的展望文章。
问:传统的(不管是不是深度)神经网络看起来在保留上下文信息方面有一些局限性。每个数据点/样本都是独立对待的。递归神经网络(Recurrent Neural Network,RNN)克服了这个问题,但是RNN训练起来非常难,而且一些RNN变种的尝试看起来也不是那么的成功。
您觉得RNN在未来会流行起来么?如果是的话,在什么应用领域?以什么样的模型设计?非常感谢您百忙之中的回答!
答:回归网络或者叫做递归网络,在各种类型的对象的相互依赖关系的建模上,非常有用。我们小组在如何训练RNN上做了一些工作,这也是当前深度学习社区研究工作的重要组成部分。可能的应用领域有:语音识别(尤其是语言识别部分),机器翻译,情感分析,语音合成,手写合成与识别等等。
问:我很想听听您对liquid state machine(LSM)和深度学习之间的对比。
答:liquid state machine和echo state networks(ESN)没有学习RNN里面类似的权重,换句话来说,它们不学习数据的表征。然而,深度学习最重要的目的,就是学习一个好的数据表征。从某种程度来讲,LSM之类的跟SVM很像,即给定一堆确定的特征,学习一个线性分类器。这里用到的特征是跟前面序列有关的函数,通过一些巧妙手段预先设置好权重。这些特征非常好,那么,能自动学习这些特征不是更好么!
网友附加答案:我觉得ESN和LSM非常好,学习它们能让我们更清楚RNN,了解RNN模型上什么情况下会给出很差结果,学好前两者对于学习DNN有好处。推荐看看Ilya在初始化方面的工作,文章阐述了采用Herbert Jaeger建议的ESN初始化方法的有效性,这对RNN同样奏效。另外LSM和ESN通常可以作为DNN很好的基准参考对比。还可以看看这个页面,很多RNN有用信息,尤其是LSTMNN,它是RNN变种之一,继绝RNN训练过程中梯度消失的问题,从而让RNN能够感知到更长的上下文。
问:Bengio教授您好,我是McGill大学的本科生,从事类型论(译者注:与集合论差不多的学科)方面的研究,我的问题是:
我所在的领域很注重形式化证明,机器学习领域有没有关注形式化证明的课题呢?如果没有的话,怎么保证学科的严谨性?有没有人研究用深度学习产生程序呢?我的直觉是最重我们可以用类型论来指定一个程序,并且用深度学习来搜索这个指定程序的实例,但现在我觉得可能还有很多困难。
您能给举几个例子,关于机器学习中独特的数据结构的么?作为零起点的同学,我怎么才能开始深度学习呢?我不知道应该看一些什么资料,要是我能搞出点名堂,我非常愿意应聘您团队的研究职位。
答:有一种非常简单的方法,让我们无需证明,就能够得到学科的严谨性,大家都经常用到:叫做科学方法论,它依赖实验、假设和验证。另外,深度学习的论文里逐渐出现越来越多的数学。有一段时间,我曾对深度学习和浅层学习的特性对比很感兴趣(参见我和Delalleau或者更近的Pascanu一起合作的文章)。我还跟Nicolas Le Roux一起在RBM和DBN的近似特性上做了一点工作,我还建议你去看看Montufar的文章,很炫的数学。
至于零基础问题,有很多资料值得参考,比如deeplearning.net网站上的:
网友附加讨论:我从事概率编程语言方面的研究,您觉得有没有深度学习编程语言呢?让新手更容易创造自己的深度学习模型。
网友附加回答:我是Yoshua的博士生,我们实验室现在开发了一个Python库,叫做Pylearn2,它可以让小白相对容易地使用深度学习,可能你还是需要很了解自己的算法本身,但是至少你不需要从头开始自己实现它了。当然这不是通常意义的编程语言,你可以看看Theano,它对于深度学习架构的描述和训练都非常到位。概率编程语言的话可以看看这个。另外机器学习理论方面的研究可以看看这个会议。还有,训练神经网络有很多的技巧,光看别人的论文是学习不到的,这些技巧有的非常的取巧,有的非常偏颇,不会被写在论文里的。最好的方法就是跟创造和研究它的人共事,多问问题,多尝试,参考这个视频教程。
再推荐几个框架:
感谢吴甘沙对本文的审校。 给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。
- cuda-convnet:最常用的gpu卷积神经网络实现,github上也有变种
- caffe
- NNforge:基于cuda-convnet,但是包含更多内容
- pylearn2
- other staff
感谢吴甘沙对本文的审校。 给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。