漫谈小样本的类人概念学习与大数据的深度强化学习

作者：陈孝良发布时间：2016-03-22 09:48:47

Artificial Intelligence，人工智能，最近非常火热的话题，也算是人类最美好的梦想之一。但是非常可惜，即便AlphaGO已经成功挑战了人类智力游戏的最后的一块高地——围棋，到目前为止仍然还没有看到人工智能产生“自我”意识的希望，也就说，人工智能至少现在阶段还无法超越人类智慧，即便在学习和识别方面，人工智能和人类相比还是存在较大差距。

人工智能，与计算机之父图灵的名字紧紧联系在一起，但是这位大师被当时英国当局迫害英年早逝，除了留给人类无可估量的思想财富，也激发了乔布斯的灵感，设计出了咬掉一口的苹果公司标志。图灵在 1950 年的论文里，提出了图灵试验的设想，即通过隔墙对话，你将不知道与你谈话的是人还是计算机。这无疑给人工智能预设了一个很高的期望值，半个多世纪以来人类在这方面的进展却十分缓慢。

但是自 2006 年以来，深度学习的出现似乎让人类重新看到了希望，至少通过图灵测试不是那么可望而不可及了。人类似乎找到了解决“抽象概念”的关键，在这十多年时间，随着Google、Facebook、Amazon的加入更是加速了深度学习的发展，目前深度学习已经广泛应用到数据搜索、图像识别、语音识别、气候预测、地理数据等等各个领域并且带给了我们前所未有的体验。

但是，深度学习真的就是这么神奇？深度学习真能解决人工智能当前面临的诸多问题吗？正是因为深度学习过于火热了，笔者才必须要写这篇文章，因为我们还忽视了一个同样关键的技术——贝叶斯学习，这里借鉴《Science》一篇著名的论文中的概念，我们姑且称之为类人概念学习，那么就让我们来漫谈一下这两个技术，到底如何才能形成我们真正需要的人工智能呢？

什么是深度强化学习？

现在街头巷尾都在谈论的机器学习，其实是一个非常宽泛的概念，而其中最酷的分支要算是深度学习（Deeplearning）和强化学习（Reinforcement learning）了。谷歌的DeepMind就是将深度学习和强化学习这两者的精髓合二为一，提出了深度强化学习。在2014年的时候，这个团队就在《Nature》杂志上发表了题为《Human-level control through deep reinforcement learning》的论文，让业界对此充满了期待。

深度学习起源于2006年，这要感谢机器学习领域的泰斗Geoffrey Hinton先生，是他在《Science》上的一篇著名论文开启了深度学习的浪潮。Geoffrey Hinton先生是个非常勤奋的学者，老人家腰椎不是太好，写个代码都得站着，而且还无法坐飞机，正所谓，伟大的人总要有伟大的付出，在此，向他致敬！

深度学习是一种机器学习中建模数据的隐含分布的多层表达的算法。换句话来说，深度学习算法自动提取分类中所需要的低层次或者高层次特征。因此深度学习能够更好的表示数据的特征，同时由于模型的层次、参数很多，容量也足够，因此，深度学习模型有能力表示大规模数据，所以对于图像、语音这种特征不明显的棘手问题，反而能够借助深度学习在大规模训练数据上取得更好的效果。而且由于深度学习将特征和分类器结合到一个框架中，用数据去学习特征，在使用中减少了手工提取特征的巨大工作量，因此，不仅仅效果可以更好，而且应用起来也非常方便。因此深度学习在图像识别和语音识别方面获得了巨大的进步。

强化学习，其实，就是一个连续决策的过程，其特点是不给任何数据做标注，仅仅提供一个回报函数，这个回报函数决定当前状态得到什么样的结果（比如“好”还是“坏”），从数学本质上来看，还是一个马尔科夫决策过程。强化学习最终目的是让决策过程中整体的回报函数期望最优。

通过所谓的类似于人脑网状结构的神经网络，深度学习是可以解决很多很实际的问题。例如谷歌的图像搜索，Facebook的人脸识别，Skype的实时翻译以及Twitter的色情语言识别。强化学习则将深度学习又往前推进了一步，一旦你建立起了一个玩游戏的深度学习网络，你可以通过强化学习，让它和自己进行比赛，自我进化。

什么是类人概念学习？

事实上，在深度学习火热之前，人工神经网络也曾热闹了一番。在 20世纪80年代末期，用于人工神经网络的反向传播算法（也称Back Propagation算法或者BP算法）的发明，也曾掀起了基于统计模型的机器学习热潮。当初人们希望利用BP算法可以让一个人工神经网络模型从大量训练样本中学习统计规律，从而对未知事件进行预测。但是实际上BP算法距离这个目标还非常遥远，90年代中后期BP热潮就逐渐褪去。但是不管怎样，BP带来了很多新的思路，并且证明了基于统计的机器学习方法比基于人工规则的系统，确实在很多方面都要先进。Geoffrey Hinton先生就是在这股冷嘲中继续坚持，最终打开了深度学习的大门。

但是深度学习真的就像热捧的那样无所不能吗？实际上，并非这样，每次科学进步都会带有两面性，也同时存在着天生的缺陷，因此科学研究总会有很多思想分支，形成诸多学派，而每个学派都会针对某种场景或者问题再次深入分析。这就说明，机器学习也绝非深度学习这个分支领域能够达到人工智能所要求的。特别是在国内一窝蜂热炒深度学习或者AlphaGO的时候，美国科学界仍然相当冷静。其实，其他学派的进展显然也是非常显著，12月份《Science》的封面文章就是Brenden M. Lake等人撰写的《Human-level concept learning through probabilistic program induction》。国内通常翻译称为《通过概率规划归纳的人类层次概念学习》，而笔者认为采用“类人概念学习”这个词语显得更加贴切。这篇文章与谷歌在《Nature》发表的封面文章遥相呼应，共同为人工智能的探索提供了思路，但很可惜的是，国内几乎把这篇文章忽略了。

那什么是“类人概念学习”？回答这个概念之前，我们先回顾一下深度学习，深度学习基于大数据通过多层网络实现对“抽象概念”的理解，显然数据越多其效果相对就会越好，但是若没有大数据怎么办？何况人类的知识也是一点点积累的，对于人类来说，即便没有积累，没有相应的专业知识，实际上我们也能“照猫画虎”。从这点上来看，以深度学习为核心的人工智能就远远不及人类，因为人类面对陌生环境依然能够通过学习做出适应变化。因此“类人概念学习”首先就要解决深度学习的这种弊端，即不依赖大数据也能进行自我学习，笔者通常定义为“小样本学习”。

“小样本学习”的概念依然是太广了，而且也不是什么太新的概念，这个研究思路比神经网络的出现还要早很多年。笔者所提到的“小样本学习”，核心就是贝叶斯规划学习（Bayesian Program Learning，BPL），为了与深度学习（DeepLearning, DL）相区分，一般称为BPL方法。BPL方法是利用参数的先验分布，由小样本信息求来的后验分布，直接求出总体分布。这种方法使用概率去表示所有形式的不确定性，通过概率规则来实现学习和推理过程。

我们再来回顾一下Brenden M. Lake等人的论文，其中一张图概括了BPL方法的流程：图中parts部分学到的是提笔-落笔的这一段笔画过程，sub-parts学到的是由于暂停分割开的更小的笔画，这两者结合就生成字符的模板object template，同时模板还分为attached along和attached at start两种。论文中用来训练的数据除了完整的字符以外，只有具体笔画的样本，总体可提供的数据样本非常少。

BPL方法的目的就是为了解决“看一眼就会写字”的问题，这完完全全只能基于小样本，只需要一个陌生文字系统的字符，BPL方法就能很快学到精髓把这个文字写出来，甚至还能写出其他类似的文字。而且更为重要的是，这篇论文展现的BPL方法还通过了视觉图灵测试。这也得益于BPL方法观察到的每个训练样例可以增量地降低或升高某假设的估计概率，而其他算法会在某个假设与任一样例不一致时完全去掉该假设。但是BPL方法需要概率的初始知识，当概率预先未知时，可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率。

两种学习之间有什么区别？

来看一下剑桥大学信息工程教授Zoubin Ghahramani对贝叶斯规划学习（BPL）的评价，他认为BPL对人工智能、认知科学和机器学习是一个重大的贡献。深度学习目前已取得了重要的成功，但是也必须非常清醒地认识到深度学习的局限性，因为深度学习需要大量的数据，并且在很多任务上表现很差。

深度学习（DL）主要解决的是计算机“运筹帷幄”的问题，实现“要从大量数据形成抽象”；而贝叶斯规划学习（BPL）主要解决的是计算机“照猫画虎”的问题，实现“仅从一个例子就形成概念”。打个比方来说，深度学习更会分析规律和预测趋势，而贝叶斯规划学习更会举一反三和当机立断。深度学习模仿人类大量阅读书籍自我揣摩形成判断，而贝叶斯规划学习则是通过观察单个案例进行迅速决策。当然，贝叶斯规划学习的决策可能是错误的，特别是在没有形成先验概率的时候。

类人概念学习会是未来吗？

那么，以贝叶斯规划学习为核心的类人概念学习将会是未来的主要方向吗？回答这个问题之前，我们首先看下深度学习的奠基者Geoffrey Hinton先生对BPL方法的评价。Geoffrey Hinton先生首先肯定了BPL模型通过视觉图灵测试的意义，他认为BPL方法最令人兴奋的成果或许是能让那些宣称智能计算机系统的学习方式与人类完全不同的批评者闭嘴，因为他们的主要论据正是计算机不能从单个例子中形成概念。

我们知道深度学习近年来取得了举世瞩目的成就，被广泛应用在许多领域，例如内容搜索、语音识别、图像识别等。但是现在看来，似乎贝叶斯规划学习要比深度学习的表现更好一点，因为这种方法更加适合我们人类适应环境的方式。当然，两种学习方法在不同的任务上还是独具特色，各领风骚，假如能彼此借鉴，相互融合，一定能够大幅提升人工智能的水平。当数据量巨大但较混乱的情况下，深度学习能发挥优势；而在数据量较少而清晰的情况下，贝叶斯规划学习占领上风。

笔者一直认为在科学研究中，哲学上的思路发展远比技术本身更加重要！类人概念学习和深度强化学习的未来也必然是浑然融合成一体，只有这样才符合人类学习和决策的过程，才真正能提升人工智能的水平。笔者也曾借助声音和图像融合研究的基础，花费大量时间研究这两种方法的融合，并致力于设计出一个异构学习方法融合的混血系统，来解决大数据中的降维、异构问题，并发挥小样本学习的优势，利用人工智能满足我们实际生活中的事务性需求。当然，这急需相关人才的加入，如您有兴趣参加到这项伟大的事业中来，您可以通过声学在线直接与我们联系，或者直接邮件联系我们hr@soundai.com。

声学在线微信平台：soundonline

posted on 2016-08-02 11:26 艾斯1213 阅读(766) 评论(0) 编辑收藏举报

刷新页面返回顶部

漫谈小样本的类人概念学习与大数据的深度强化学习

导航

公告