《神经网络与深度学习》第一章 绪论
第一章 绪论
- 深度学习是机器学习的一个分支,是指一类问题以及解决这类问题的方法。
- 神经网络:一种以(人工)神经元为基本单元的模型
- 深度学习主要解决贡献度分配问题
- 每个组件都会对信息进行加工,并进而影响后续的组件,所以当得到最后的输出结果时,我们并不清楚其中每个组件的贡献度是多少。
- (人工)神经网络:比较好解决贡献度分配问题的模型;
- 神经网络和深度学习并不等价,深度学习包含了神经网络,神经网络作为深度学习主要采用的模型。
- 图灵测试->对智能的定义
一个人在不接触对方的情况下,通过一种特殊的方式和对方进行一系列的问答,如果在相当长时间内,他无法根据这些问题判断对方是人还是计算机,那么就可以认为这个计算机是智能的。
-
AI一词的提出:1956年的达特茅斯会议;
-
AI定义(John):AI就是要让机器的行为看起来就像人所表现出的智能行为一样。
-
AI 延伸出来的子学科
(1)机器感知:CV、语音信息处理;
(2)学习:模式识别、机器学习、强化学习;
(3) 认知:
1) 语言:NLP;
2)记忆:知识表示;
3)决策:规划、数据挖掘 ......
1.1 人工智能的发展历史
1.1.1 人工智能经历的时期
- 推理期
- 1956年的达特茅斯会议之后;
- 基于人类经验、逻辑或者事实归纳出的规则;
- 几何定理证明器、语言翻译器等;
- 推理规则过于简单,对项目难度评估不足,AI的研究陷入低谷。
- 知识期
- 20世纪70年代;
- 知识对于AI系统的重要性;
- 出现各类专家系统[亦称为基于知识的系统](知识库+推理机);
- 领域专家级认识;
- 模拟专家思维;
- 达到专家级的水平;
- prolog语言作为开发工具;
- 基于逻辑学理论而创建的逻辑编程语言,最初被用于NLP、逻辑推理等领域。
- 学习期
- 20世纪80年代;
- 知识+推理很难实现例如语言理解、图像理解等智能系统;
- 机器学习。
1.1.2 AI的流派
- 符号主义
- 亦逻辑主义、心理学派或计算机学派;
- 假设 :(1)信息可以用符号表示;(2)符号可以通过显式的规则(如逻辑运算)来操作;
- AI的推理期和知识期,符号主义为主;
- 优点:可解释;
- 连接主义
- 亦仿生学派或生理学派;
- 人类的认知过程是由大量简单神经元构成的神经网络中的信息处理过程,而不是符号运算。
- 特性:非线性、分布式、并行化、局部性及自适应性。
- 缺点:缺乏解释性;
1.2 机器学习
- 从有限的观测数据中学习出具有一般性规律,并利用这些规律对未知数据进行预测的方法。
- 传统机器学习——》浅层学习(Shallow Learning):不涉及特征学习,其特征主要靠人工经验或特征转换方法来抽取。
当我们用机器学习来解决一些模式识别任务时,一般的流程包含以下几个步骤:
特征处理一般都需要人工干预完成,利用人类的经验来选取好的特征,因而很多机器学习问题变成了特征工程
1.3 表示学习
- 表示:将输入信息转换为有效的特征。
- 表示学习:一种算法可以自动地学习出有效的特征,并提高最终机器学习模型的性能。
- 关键解决问题:语义鸿沟[输入数据的底层特征和高层语义信息之间的不一致性和差异性]
- 好的表示的条件
- 具有很强的表示能力,即同样大小的向量可以表示更多的信息;
- 好的表示应该使后续的学习任务变得简单,即需要包含更高层的语义信息;
- 具有一般性;但目前的多数表示学习方法是基于某个任务来学习,期望学习到的表示比较容易地迁移到其他任务上
- 表示特征
(1)局部表示(离散表示 or 符号表示)
优点:
1) 具有很好的解释性,利于人工归纳和总结特征,并通过特征组合进行高效的特征工程;
2)通过多种特征组合得到的表示向量通常是稀疏的二值向量,当用于线性模型时计算效率非常高。
缺点:
1)one-hot向量的维数很高,且不能扩展;
2)不同向量之间的相似度为0;
(2)分布式表示(低纬的稠密向量)
优点:
1)表示能力强,维度低;
2)不同向量之间的相似度可计算;
- 嵌入:将一个度量空间中的一些对象映射到另一个低纬的度量空间中,并尽可能保持不同对象之间的拓扑关系。(例如词嵌入)
- 深层结构的特点:增加特征的重用性,进而指数级别增加表示能力。
传统的特征提取:
- 线性投影(子空间):PCA、LDA
- 非线性嵌入:LLE、Isomap、谱方法
- 自编码器
特征提取VS表示学习
- 特征提取:基于任务或先验对去除无用特征
- 表示学习:通过深度模型学习高层语义特征
1.4 深度学习
-
避免特征工程
通过构建具有一定“深度”的模型,可以让模型来自动学习好的特征表示(从底层特征,到中层特征,再到高层特征),从而最终提升预测或识别的准确性。
-
深度学习的数学描述
-
关键问题:贡献度分配问题;
-
神经网络天然不是深度学习,深度学习天然是神经网络
-
端到端学习:在学习过程中不进行分模块或分阶段训练,直接优化任务的总体目标。
1.5 神经网络
1.5.1 生物神经元
-
单个神经细胞只有两种状态:兴奋和抑制
-
赫布法则:如果两个神经元总是相关联地受到刺激,他们之间的突触强度增加。
-
人脑有两种记忆:长期记忆和短期记忆。
-
短期记忆持续时间不超过一分钟。如果一个经验重复足够的次数,此经验就可储存在长期记忆中。
-
短期记忆转化为长期记忆的过程就称为凝固作用。
-
人脑中的海马区为大脑结构凝固作用的核心区域。
1.5.2 人工神经网络
人工神经网络主要由大量的神经元以及它们之间的有向连接构成。因此考虑三方面:
- 神经元的激活规则:主要是指神经元输入到输出之间的映射关系,一般为非线性函数。
- 网络的拓扑结构:不同神经元之间的连接关系。
- 学习算法:通过训练数据来学习神经网络的参数。
人工神经网络由神经元模型构成,这种由许多神经元组成的信息处理网络具有并行分布结构。
虽然这里将 神经网络结构大体上分为三种类型,但是大多数网络都是复合型结构,即一个神经网络中包括多种网络结构。
如何解决贡献度分配问题?
1.5.3 神经网络发展史
- 模型提出
- 1943~1969
- 1943:MP模型:Warren,基于简单逻辑运算;
- 1948:B型图灵机,Alan,基于赫布法则;
- 1951:感知器,迭代算法, McCulloch和Marvin;
- 冰河期
- 1969~1983
- 1969:Marvin,《感知器》指出神经网络的两个关键缺陷:(1)感知机无法处理异或问题;(2)算力不支持;
- 1974:Paul,BP算法;
- 1980:福岛邦彦,新知机,带卷积核子采样操作的多层神经网络,采用无监督学习的方式训练;
- 反向传播算法复兴
- 1983~1995
- 1983:John,Hopfield网络,用于联想记忆;
- 1984:Geoffrey,随机化版本的Hopfield网络,即玻尔兹曼机;
- 1986:分布式并行处理[PDP],BP成为PDP的主要算法;
- 1989:LeCun,将BP引入CNN中,并应用在MNIST数据集上;
- 目前深度学习中使用的自动微分,是BP的扩展;
- 但梯度消失问题阻碍神经网络的进一步发展;
- 流行度降低,SVM强势出场
- 1995~2006
- 计算机性能和数据规模不足以支撑大规模神经网络
- 统计学习理论和SVM占优势
- 神经网络的理论基础不清晰、优化困难、可解释性差问题凸显
- 深度学习的崛起
- 2006:预训练+精调,Hinton;
- 2012:在语音识别[Hinton],图像分类任务[Krizhevsky]上获得成功;
- 强大的算力,海量的数据规模
1.6 其他学习资料
- 如何设计模型结构、有效地学习模型的参数、优化模型性能以及在不同任务上的应用
- Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8):1798-1828.
- 全面了解人工神经网络和深度学习知识
- 2016,Goodfellow,《Deep Learning》
- Bengio Y. Learning deep architectures for AI[J]. Foundations and trends in Machine Learning,2009, 2(1):1-127
- 神经网络的历史
- Anderson J A, Rosenfeld E. Talking nets: An oral history of neural networks[M]. MIT Press, 2000
- 深度学习会议
- 国际表示学习会议,ICLR,聚焦深度学习;
- 神经信息处理系统年会,NeurIPS,神经信息处理,统计方法,学习理论及应用;
- 国际机器学习会议,ICML,机器学习顶级会议,深度学习作为近年来的热点;
- 国际人工智能联合会议,IJCAI,AI最顶尖的综合性会议;
- 美国人工智能协会年会,AAAI,AI的顶级会议。
- 计算机视觉与模式识别大会:CVPR;
- 国际计算机视觉会议,ICCV;
- 计算语言学年会,ACL;
- 自然语言处理实证方法大会,EMNLP;
最后附上此书的知识体系图,如下