西瓜书阅读记(一)
一、绪论
生活中我们经常会根据自己的经验对新的事物做出判断,我们希望计算机也能通过“学习”获得“经验”从而对新的数据进行判断。机器学习的主要内容便是在计算机上通过从数据中产生“模型”的算法,即“学习算法”。有了学习算法,提供一些“经验”数据,基于这些数据产生模型,在得到新的数据时,模型会提供给我们相应的判断。
【基本概念】
(1)数据集D:数据记录的集合;(2)示例/样本x:每一条记录;(3)属性/特征:反映事件或性质在某方面的表现或性质的事项;(4):属性值/特征值:属性的取值;(5)属性空间/样本空间/输入空间X:属性张成的空间;(6)特征向量:在属性空间中每个示例对应的一个坐标向量;(7)维数d:属性的个数;(8)学习/训练:通过执行某个学习算法从数据中获得模型的过程;(9)假设:学得模型对应了关于数据的某种潜在规律;(10)真相/真实:这种潜在规律自身;(11)标记y:训练样本的“结果”信息;(12)样例(x,y):拥有标记的示例;(13)标记空间/输出空间Y:所有标记的集合。
eg:收集了一批关于西瓜的数据:数据集D={(色泽=青绿;根蒂=硬挺;敲声=清脆),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)};其中样本x有两条;属性有3个:色泽、根蒂、敲声;属性空间X的维数d是3;除了示例数据外,还需要样本空间Y=(好瓜,坏瓜),则对应的((色泽=青绿;根蒂=硬挺;敲声=清脆),好瓜)表示一个样例。
(14)学习任务:根据训练数据是否有标记可以分为:
(I)监督学习:训练数据有标记信息;
根据预测的标记是否离散可分为:(a).分类:预测的是离散值;类别数为2时:二分类任务;大于2时:多分类任务(b)回归:预测是连续值
(II)无监督学习:训练数据无标记信息。聚类:将训练集中的示例分为若干组。
通过对训练集进行学习,建立一个从输入空间X到输出空间Y的映射f:X-->Y
其中二分类任务,Y={-1,+1}或{0,1};多分类任务:|Y|>2;回归任务:Y=R(R为实数集)
(15)测试:学得模型后,使用其进行预测的过程成为“测试”;(16)测试样本:被预测的样本;
(17)泛化:学得模型使用于新样本的能力;(18)独立同分布:假设样本空间中全体样本服从一个未知分布D,获得的每个样本都是从独立的从这个分布上采样获得的,即独立同分布。
【假设空间】
科学推理的两种手段:
(1)归纳:从特殊到一般的“泛化”过程;eg:从样例中学习(2)演绎:从一般到特殊的“特化”过程,eg:基于公理和推理规则推导定理。
∵从样例中学习是归纳过程,∴也成为“归纳学习”
归纳学习:
(1)广义:相当于从样例中学习;
(2)狭义:要求从训练数据中获得概念,也称为“概念学习”
假设空间:
所有假设组成的空间:eg:西瓜问题中只有三个属性,每个属性有三种取值,则假设空间规模大小应该为:4*4*4+1=65(4代表3种取值加上通配符,1代表根本极端情况概念不成立)
学习过程:
在假设空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。
版本空间:
可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”。
【归纳偏好】
(1)问题:在一个版本空间中,一个模型在面对新样本的时候会产生不同的输出,即该新样本可匹配版本空间中不同的假设。那么该采用哪种模型或假设呢?
解决:根据其“归纳偏好”得到模型,任何一个机器学习算法在学习过程中都会对某种类型假设有偏好,从而得到确定的学习结果。
(2)问题:学习算法怎么选择合适的偏好呢?也就是说有没有“一般性的原则”引导算法确立“正确的”偏好呢?
解决:常用的是“奥卡姆剃刀原则”:若有多个假设与观察一致,选择最简单的那个。
(3)问题:对于一个学习算法,它在某些问题上比另一种学习算法好,但必然存在另外一些问题,另一种学习算法比该学习算法更好。考虑二分类问题,若所有可能的真实目标函数均匀分布,则通过推导学习算法的误差可以发现总误差与学习算法无关!
即NFL定理(没有免费的午餐定理):在所有问题出现的机会相同的前提下,无论学习算法A多么聪明,学习算法B多么笨拙,它们的期望性是相同的!
解决:实际情况下,我们只需考虑我们面对的问题,只需要选择最适合面对问题的算法即可。
【发展历程】
五十年代:推理器;七十年代:知识期;八十年代:学习期
1.二十世纪五十年代初:已出现机器学习的相关研究:A.Samuel的跳棋程序;
2.五十年代中后期:基于神经网络的“连接主义”学习:感知机、Adaline;
3.六七十年代:基于逻辑表示的“符号主义”学习:结构学习系统、基于逻辑的归纳学习系统、概念学习系统;
以决策理论为基础的学习技术级强化学习技术
二十世纪五十年代到七十年代初:人工智能处于“推理期”;
七十年代中期:人工智能进入了“知识期”,大量专家系统问世;
八十年代:机器学习成为一个独立的学科领域;
4.八十年代:从样例中学习的一大主流:符号主义学习:决策树、基于逻辑的学习(归纳逻辑程序设计ILP);
5.九十年代中期之前:从样例中学习的另一大主流技术是基于神经网络的连接主义学习,重新得到关注;
5.九十年代中期:统计学习(代表技术:支持向量机SVM及核方法);
6.二十一世纪初:连接主义学卷土重来,掀起了深度学习的热潮。
【阅读材料】
1) 第一本机器学习专业期刊:Machine Learning
2) 人工智能领域的权威期刊:Artificial Intelligence
3) 第一本机器学习专门性教材:Mitchell, 1997
4) 出色的入门读物:Duda et al.,2001; Alpaydin, 2004; Flach, 2012;
5) 进阶读物:Hastie et al. , 2009;
6) 适合贝叶斯学习偏爱者:Bishop, 2006
7) 基于WEKA撰写的入门读物,有助于初学者通过WEKA实践快速掌握常用的机器学习算法:Witten et al.,2011
8) 国际机器学习会议:ICML
9) 国际神经信息处理系统会议:NIPS
10) 国际学习理论会议:COLT
11) 国际学术期刊Journal of Machine Learning Research 和 Machine Learning
12) 人工智能领域的重要会议:IJCAI, AAAI
13) 人工智能领域重要期刊:Artifical Intelligence; Journal of Artifical Intelligence Research
14) 数据挖掘领域重要会议:SIGKDD,KDD, ICDM
15) 数据挖掘领域重要期刊:ACM Transactions on Knowledge Discovery from Data; Data Mining and Knowledge Discovery
16) 计算机视觉和模式识别领域的重要会议:CVPR
17) 计算机视觉与模式识别领域的重要期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence
18) 神经网络领域的重要期刊:Neural Computation, IEEE Transactions on Neural Networks and Learning System
19) 统计学领域的重要期刊:Annals of Statistics
20) 中国机器学习大会:CCML
21) 中国“机器学习及其应用”研讨会:MLA