什么是“预测学习”
Most of human and animal learning is unsupervised learning.
Yann LeCun在NIPS 2016大会主题报告提出了“预测学习”的概念,可以简单理解为深度无监督学习方法。大会报告主要包括深度学习、预测学习、增强学习、基于能量函数的无监督学习、对抗学习五部分内容,本文简要介绍了报告要点,原文PPT获取详见文末。
深度学习
- 所谓“深度”是指不止一层的非线性特征变换,例如卷积神经网络中低层、中层、高层图像特征抽取变换,典型的卷积神经网络如VGG、GoogLeNet、ResNet都用了很深的网络结构
- 深度学习实现了模型全流程的学习(“端到端”),而之前机器学习方法需要手工或无监督的抽取特征
- 卷积神经网络在计算机视觉领域已有很多“令人惊喜”的应用,如给图像配标题、图像语义分割、图像物体识别与定位等
预测学习
- 共识=世界如何运作的常识
- 共识+智能=感知+预测模型+记忆+推理(预测+规划)
- 准确的测量环境状态
- 关注重要的事件
- 记住相关的事件
- 预测何种行为将生成最优结果
-
预测学习(或很多人认为的无监督学习)主要目标是让机器拥有“共识”,即从可获得的任意信息中预测所感知对象(系统状态/行为、图像、语言等)的过去、现在或将来任意部分
-
预测学习的难点在于监督学习预测标注数据,或是强化学习预测值函数等方法都是不够等,参见LeCun著名的“AI蛋糕理论”
增强学习
- 传统增强学习的基本原理是“在行动前按脑子里的想法尝试下”,智能体感知环境并作用于环境,尝试最小化长期损失目标
- 想要提前做规划,必须有“世界仿真器”,智能体通过最小化长期预测损耗来实现推理决策
- 实例
- PhysNet:基于Unreal图形仿真引擎预测下降物体轨迹
- EntNet:记忆文本世界状态,第一个通过文本故事判别测试(20bAbI)
基于能量函数的无监督学习
- 能量函数,也称差异函数(contrast function),即给定样本数据映射到一个新的流型空间,在该空间里预期的数据点能量值最小,而其它点上的能量值都很大
- 学习的关键在于构造“合适的”能量函数,有七种常用策略
- 构建机器使得低能量项为常量,例如PCA、K-means、GMM等方法
- 降低数据点的能量,提高其它数据点的能量,例如最大似然估计
- 降低数据点的能量,提高指定区域点的能量,例如Contrastive divergency、Ratio matching
- 最小化数据点的梯度最大化其曲率,例如score matching
- 训练能够学习数据样本流型的动态系统,例如降噪自编码器
- 使用正则项限制数据空间中低能量的区域,例如稀疏编码、稀疏自编码器
- 如果E(Y)=||Y-G(Y)||^2,令G(Y)尽可能为常量,例如合约自编码器
对抗学习
- 无监督学习的难点在于“不确定情况下”的预测,输入数据X只不过是真实世界的一个采样,假设还有隐状态变量Z作用下,预测值Y是处于某流型分布之中。但当数据采样不够的话,是很难进行预测的
- 从能量函数角度看对抗学习,核心思想是用生成器决定那些数据点的能量高,其中判别器是一个自编码器,然后定义判别器和生成器的损失函数,并寻找最优的纳什均衡情况下的判别器和生成器
- 目前对抗学习已经在生成不存在的真实图像、图像算术运算、视频预测等方面有应用
最后,想进一步学习Yann LeCun报告PPT的朋友,请关注小虾米微信公众号,后台回复“预测学习”即可得到下载地址。
数据科学武林风起云涌,
随数据小虾米共闯江湖~