博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

深度学习三巨头之一来清华演讲了,你只需要知道这7点

http://wemedia.ifeng.com/10939074/wemedia.shtml

 

Yann LeCun还提到了一项FAIR开发的,用于检测、分割、识别单张图像中每个物体的技术,比如在一盘菜里检测、分割、并识别出西兰花来、又或是在一堆羊群里分割出每只羊,其核心流程为以下三步(去年8月都已开源):

1)使用DeepMask这个新型框架对物体进行检测与分割,生成初始对象掩膜(Mask,相当于一个覆盖区域);

2)使用SharpMask模型优化这些对象掩膜;

3)使用MutiPathNet卷积网络识别每个掩膜所框定的物体。

值得一提的是,MutiPathNet中使用了一种新型的对象实例分割(Instance Segmentation)框架:Mask R-CNN。这是FAIR研究员何凯明(Kaiming He)——同时也是深度残差网络ResNet的作者之一——最近公布的研究成果,它是Faster R-CNN的扩展形式,能够有效地检测图像中的目标,同时还能为每个实例生成一个高质量的分割掩膜(Segmentation Mask)。

 

 

3、常识是个好东西,希望大家都有

此外,Yann LeCun还提到了如今AI发展过程中遇到的几大困难:

1)机器需要学习/理解世界的运行规律(包括物理世界、数字世界、人……以获得一定程度的常识)

2)机器需要学习大量背景知识(通过观察和行动)

3)机器需要理解世界的状态(以做出精准的预测和计划)

4)机器需要更新并记住对世界状态的估测(关注重大事件,记住相关事件)

5)机器需要逻辑分析和规划(预测哪些行为能让世界达到目标状态)

目前机器学习中最大挑战之一就是如何让机器拥有常识——即让机器获得填充空白的能力。比如“John背起包来,离开了房间”,由于人类具备常识,因此我们能够知道John在这个过程中需要站起来,打开房门,走出去——他不会是躺着出去的,也不会从关着的门出去,可机器并不知道这一点。又或者我们即使只看到了半张人脸也能认出那人是谁,因为人类常识里左右脸都是通常长得差不多,但机器同样不具备这种能力。

下文提到的无监督/预测学习可以让机器获得常识,现在我们常用的监督学习并做不到这一点。从本质上来说,在无监督学习方面,生物大脑远好于我们的模型。

 

4、无监督学习才是蛋糕本身

“是的、是的,我知道你们在想什么——那个蛋糕比喻又来了,”切到这张幻灯片时,Yann LeCun笑着说,“这已经是我在人工智能领域的一个梗了。”

在大大小小的无数场演讲中,Yann LeCun不止一次,甚至不止十次地打过这个比方:如果人工智能是一块蛋糕,强化学习(Reinforcement Learning)就是蛋糕上的一粒樱桃,而监督学习(Supervised Learning)是蛋糕外的一层糖霜,但无监督学习/预测学习(Unsupervised/Predictive Learning)才是蛋糕本身。目前我们只知道如何制作糖霜和樱桃,却不知道如何做蛋糕。

我们现在对深度神经网络的训练,用的大部分还是监督学习的方式。你将一张图片展现给系统并告诉它这是一辆车,它就会相应调整它的参数并在下一次说出“车”。然后你再展现给它一张桌子,一个人。在几百个例子、耗费几天到几周的计算时间之后,它就弄明白了。“这其实并不是一个非常复杂的概念。”

其次,对于一个AI系统来说,预测+规划=逻辑分析(Predicting + Planning = Reasoning)。如果想要让机器能够了解并且预测世界的规律,强化学习(Reinforcement Learning)需要建立一个世界模拟器(World Simulator),模拟真实世界的逻辑、原理、物理定律等。不过真实世界太过复杂,存在大量的表征学习参数,使得机器学习的计算量相当冗余,听起来似乎很诱人,但是在有限的时间内无法学习到成千上亿的参数。

而无监督学习需要机器处理大量没有标记的数据,就像给它一堆狗的照片,却不告诉它这是一条狗。机器需要自己找到区分不同数据子集、集群、或者相似图像的办法,有点像婴儿学习世界的方式。

 

5、无监督学习的一些突破性的尝试与结果

无监督学习的一大困难之处在于:对不确定性的预测。比如当你将一支笔直立在桌面上时,松开手的那一刻,你并不知道这只笔将会朝哪个方向倒下。如果系统回答这只笔会倒下,却判断错误了倒下的方向,我们需要告诉系统,虽然你不是完全正确,但你的本质上是正确的,我们不会惩罚你。此时需要引入曲面的成本函数,只要系统回答在曲面之下的数据,都是正确的答案。

两者的关系就像一个骗子和一个测谎者。判别器这位测谎者要不断优化自己,尽可能地识别出发生器生成的“假图像”,防止自己被骗;而生成器这个骗子为了瞒过判别器,也必须不断进步。在这种动态的对抗中,生成器会得到训练,最后开始生成非常真实的图片,这意味着生成器掌握了图像的特征,自己掌握成本函数——某种意义上,这就是无监督学习。