西瓜书阅读记(一）

一、绪论

生活中我们经常会根据自己的经验对新的事物做出判断，我们希望计算机也能通过“学习”获得“经验”从而对新的数据进行判断。机器学习的主要内容便是在计算机上通过从数据中产生“模型”的算法，即“学习算法”。有了学习算法，提供一些“经验”数据，基于这些数据产生模型，在得到新的数据时，模型会提供给我们相应的判断。

【基本概念】

（1）数据集D：数据记录的集合；（2）示例/样本x：每一条记录；（3）属性/特征：反映事件或性质在某方面的表现或性质的事项；（4）：属性值/特征值：属性的取值；（5）属性空间/样本空间/输入空间X：属性张成的空间；（6）特征向量：在属性空间中每个示例对应的一个坐标向量；（7）维数d：属性的个数；（8）学习/训练：通过执行某个学习算法从数据中获得模型的过程；（9）假设：学得模型对应了关于数据的某种潜在规律；（10）真相/真实：这种潜在规律自身；（11）标记y：训练样本的“结果”信息；（12）样例(x,y)：拥有标记的示例；（13）标记空间/输出空间Y：所有标记的集合。

eg:收集了一批关于西瓜的数据：数据集D={（色泽=青绿；根蒂=硬挺；敲声=清脆），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷）}；其中样本x有两条；属性有3个：色泽、根蒂、敲声；属性空间X的维数d是3；除了示例数据外，还需要样本空间Y=（好瓜，坏瓜），则对应的（（色泽=青绿；根蒂=硬挺；敲声=清脆），好瓜）表示一个样例。

（14）学习任务：根据训练数据是否有标记可以分为：

（I）监督学习：训练数据有标记信息；

　　根据预测的标记是否离散可分为：(a).分类：预测的是离散值；类别数为2时：二分类任务；大于2时：多分类任务(b)回归：预测是连续值

（II）无监督学习：训练数据无标记信息。聚类：将训练集中的示例分为若干组。

通过对训练集进行学习，建立一个从输入空间X到输出空间Y的映射f：X-->Y

其中二分类任务，Y={-1，+1}或{0,1}；多分类任务：|Y|>2；回归任务：Y=R（R为实数集）

（15）测试：学得模型后，使用其进行预测的过程成为“测试”；（16）测试样本：被预测的样本；

（17）泛化：学得模型使用于新样本的能力；（18）独立同分布：假设样本空间中全体样本服从一个未知分布D，获得的每个样本都是从独立的从这个分布上采样获得的，即独立同分布。

【假设空间】

科学推理的两种手段：

（1）归纳：从特殊到一般的“泛化”过程；eg:从样例中学习（2）演绎：从一般到特殊的“特化”过程，eg:基于公理和推理规则推导定理。

∵从样例中学习是归纳过程，∴也成为“归纳学习”

归纳学习：

（1）广义：相当于从样例中学习；

（2）狭义：要求从训练数据中获得概念，也称为“概念学习”

假设空间：

所有假设组成的空间：eg:西瓜问题中只有三个属性，每个属性有三种取值，则假设空间规模大小应该为：4*4*4+1=65(4代表3种取值加上通配符，1代表根本极端情况概念不成立)

学习过程：

在假设空间中进行搜索的过程，搜索目标是找到与训练集“匹配”的假设。

版本空间：

可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合”。

【归纳偏好】

（1）问题：在一个版本空间中，一个模型在面对新样本的时候会产生不同的输出，即该新样本可匹配版本空间中不同的假设。那么该采用哪种模型或假设呢？

解决：根据其“归纳偏好”得到模型，任何一个机器学习算法在学习过程中都会对某种类型假设有偏好，从而得到确定的学习结果。

（2）问题：学习算法怎么选择合适的偏好呢？也就是说有没有“一般性的原则”引导算法确立“正确的”偏好呢？

解决：常用的是“奥卡姆剃刀原则”：若有多个假设与观察一致，选择最简单的那个。

（3）问题：对于一个学习算法，它在某些问题上比另一种学习算法好，但必然存在另外一些问题，另一种学习算法比该学习算法更好。考虑二分类问题，若所有可能的真实目标函数均匀分布，则通过推导学习算法的误差可以发现总误差与学习算法无关！

即NFL定理（没有免费的午餐定理）：在所有问题出现的机会相同的前提下，无论学习算法A多么聪明，学习算法B多么笨拙，它们的期望性是相同的！

解决：实际情况下，我们只需考虑我们面对的问题，只需要选择最适合面对问题的算法即可。

【发展历程】

五十年代：推理器；七十年代：知识期；八十年代：学习期

1.二十世纪五十年代初：已出现机器学习的相关研究：A.Samuel的跳棋程序；

2.五十年代中后期：基于神经网络的“连接主义”学习：感知机、Adaline；

3.六七十年代：基于逻辑表示的“符号主义”学习：结构学习系统、基于逻辑的归纳学习系统、概念学习系统；

　　　　　　　以决策理论为基础的学习技术级强化学习技术

二十世纪五十年代到七十年代初：人工智能处于“推理期”；

七十年代中期：人工智能进入了“知识期”，大量专家系统问世；

八十年代：机器学习成为一个独立的学科领域；

4.八十年代：从样例中学习的一大主流：符号主义学习：决策树、基于逻辑的学习（归纳逻辑程序设计ILP）；

5.九十年代中期之前：从样例中学习的另一大主流技术是基于神经网络的连接主义学习，重新得到关注；

5.九十年代中期：统计学习（代表技术：支持向量机SVM及核方法）；

6.二十一世纪初：连接主义学卷土重来，掀起了深度学习的热潮。

【阅读材料】

1) 第一本机器学习专业期刊：Machine Learning

2) 人工智能领域的权威期刊：Artificial Intelligence

3) 第一本机器学习专门性教材：Mitchell, 1997

4) 出色的入门读物：Duda et al.,2001; Alpaydin, 2004; Flach, 2012;

5) 进阶读物：Hastie et al. , 2009;

6) 适合贝叶斯学习偏爱者：Bishop, 2006

7) 基于WEKA撰写的入门读物，有助于初学者通过WEKA实践快速掌握常用的机器学习算法：Witten et al.,2011

8) 国际机器学习会议：ICML

9) 国际神经信息处理系统会议:NIPS

10) 国际学习理论会议：COLT

11) 国际学术期刊Journal of Machine Learning Research 和 Machine Learning

12) 人工智能领域的重要会议：IJCAI, AAAI

13) 人工智能领域重要期刊：Artifical Intelligence; Journal of Artifical Intelligence Research

14) 数据挖掘领域重要会议：SIGKDD,KDD, ICDM

15) 数据挖掘领域重要期刊：ACM Transactions on Knowledge Discovery from Data; Data Mining and Knowledge Discovery

16) 计算机视觉和模式识别领域的重要会议：CVPR

17) 计算机视觉与模式识别领域的重要期刊：IEEE Transactions on Pattern Analysis and Machine Intelligence

18) 神经网络领域的重要期刊：Neural Computation, IEEE Transactions on Neural Networks and Learning System

19) 统计学领域的重要期刊：Annals of Statistics

20) 中国机器学习大会：CCML

21) 中国“机器学习及其应用”研讨会：MLA

posted on 2018-10-18 19:23 不想睡觉的koala 阅读(454) 评论(0) 编辑收藏举报

刷新页面返回顶部

西瓜书阅读记(一）

不想睡觉的kolala鸭

公告

导航