何为机器学习:
Mitchell在1997年给出了形式化的定义:假设P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则关于T和P,该程序对E进行了学习。
通俗来说,机器学习就是通过计算的手段,利用经验来改善系统自身的性能。从实际操作上,计算机系统的经验通常以数据的形式存在。机器学习研究的主要内容,是关于计算机从数据中产生模型的算法,即学习算法learning altorithm. 有了学习算法,就能将经验数据提供给它,基于数据产生模型。
人工智能:企图了解人的智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器
基本术语部分:
数据集:记录的集合,样本也可以是一个数据集,视为对样本空间的一个采样。
特征:反映事件或对象在某方面的表现或性质的事项
特征值、特征空间、特征向量、样本维数
学习/训练:从数据中学得模型的过程,通过执行某个学习算法来完成。
标记、样例、输出空间
假设:学得的模型对应关于数据的某种潜在规律;真实:潜在规律本身。学习过程就是为了逼近真实。
分类:预测的是离散值;回归:预测的是连续值;
测试、测试样本
聚类:将无标记的训练集分成若干组,可能对应一些潜在的概念划分,有助于了解数据内在的规律。
监督学习、非监督学习
泛化:学得模型适用于新样本的能力。一般来说,训练样本越多,关于样本分布的信息越多。
假设空间:
归纳和演绎是科学推理的两大基础手段:归纳从特殊到一般的泛化,从具体的事实归结出一般性规律;演绎是从一般到特殊的特化,从基础原理推演出具体状况。归纳学习inductive learning就是从样例中学习。狭义的归纳学习要求从训练数据中学得概念,但学习泛化性能好且语义明确的概念非常困难,现实中常用的技术大多是产生黑箱模型。
学习过程可以看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。学习过程是基于有限样本进行的,所以可能有多个假设与训练集一致,即存在一个假设集合version space。
归纳偏好:
归纳偏好指机器学习算法在学习过程中必然对某种类型假设有所偏好,否则会被假设空间中看似在训练集上等效的假设所迷惑,无法产生确定的结果。可以看成是学习算法对假设进行选择的价值观。算法的归纳偏好是否与问题本身匹配,直接决定了算法能否取得好的性能。
奥卡姆剃刀Occam's razor是一种常用的、自然科学研究中最基本的原则,若有多个假设与观察一致,则选最简单的那个。但是奥卡姆剃刀并非唯一可行的原则,且如何评价简单并不简单。
没有免费的午餐NFL定理:任何算法是全假设空间中的总误差是相同的。当一种算法在某些假设上优于另一种算法,必然存在另一些假设上逊于后者。NFL的前提是所有问题出现的机会相同,但事实上,我们只关注于某个具体任务。脱离具体问题,空谈“什么学习算法更好”毫无意义,学习算法自身的归纳偏好是否与问题相配,会起到决定性作用。
发展历程:
AI的发展历程:二十世纪,五十年代-七十年代初,推理期,只要给机器赋予逻辑推理能力,机器就能具有智能;
七十年代中期后,知识期,使机器拥有知识,但专家系统遭遇瓶颈,人类把知识总结出来再赋予机器是困难的。
机器学习的发展历程:图灵在1950年提到让机器自己能够学习知识的可能。
二十世纪,五十年代初,机器学习相关研究出现(跳棋程序)
五十年代中后期,基于神经网络的“连接主义”学习
六七十年代,基于逻辑表示的“符号主义”学习(结构学习、基于逻辑的归纳学习、概念学习)
以决策理论为基础的学习和强化学习
统计学习理论的奠定性结果
八十年代,期刊会议频出,机器学习成为一个独立的学科领域
机器学习被分为:机械学习(存储和检索)、示教学习(从指令中学习)、类比学习(通过观察和发现学习)和归纳学习(从样例中学习)
归纳学习的发展历程:
符号主义学习:八十年代主流(决策树,基于逻辑的学习ILP)。ILP具有很强的知识表示能力,较容易表达复杂数学关系,可通过逻辑表达式描述领域知识。ILP不仅可利用领域知识辅助学习,还可以通过学习对领域知识进行精化和增强。但是由于表示能力太强,导致学习过程面临假设空间太大,复杂性极高,问题规模稍大就难以有效学习,九十年代中期后陷入低潮。
连接主义学习:五十年代发展,但只能处理线性分类,1983年解决流动推销员问题,重受关注,1986年Rumelhart发明BP算法,应用广泛。但连接主义产生的是黑箱模型,从知识获取角度有明显弱点。连接主义最大局限是试错性,学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工调参,失之毫厘可能谬以千里。二十一世纪初,深度学习对复杂对象的应用上取得很好的性能,由于深度学习技术涉及的模型复杂度非常高,只要下功夫调参,性能往往会较好。虽然缺乏严格理论基础,但降低了机器学习应用的门槛,便于走向工程实践。
统计学习:九十年代中期登场并迅速主流,代表性技术是SVM以及更一般的核方法。试图以统计学习理论为直接支撑跳过连接主义的局限性。
重要会议及期刊:
机器学习领域:国际会议:国际机器学习会议(ICML)、国际神经信息处理系统会议(NIPS)、国际学习理论会议(COLT)
区域会议:欧洲机器学习会议(ECML)、亚洲机器学习会议(ACML)
国际期刊:Journal of Machine Learning Research、Machine learning
国内会议:中国机器学习大会(CCML)、机器学习极其应用研讨会(MLA)
人工智能领域:重要会议:国际人工智能联合会议(IJCAI)、美国人工智能协会(AAAI)
重要期刊:Artificial Intelligence、Journal of Artificial Intelligence Research
数据挖掘领域:重要会议:知识发现与数据挖掘(KDD)、国际数据挖掘会议(ICDM)
重要期刊:ACM Transactions on Knowledge Discovery from Data、Data Mining and Knowledge Discovery
计算机视觉与模式识别:重要会议:国际计算机视觉与模式识别会议(CVPR)
重要期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence
神经网络领域:重要期刊:Neural Computation、IEEE Transactions on Neural Networks and Learnings Systems
统计学领域:重要期刊:Annals of Statistics