PRML-1概述
1.机器学习问题分类
\(\begin{cases} 监督学习\begin{cases} 回归问题(regression,连续)\\ 分类问题(classification,离散)\\ \end{cases}\\ 无监督学习\begin{cases} 聚类(clustering)\\ 密度估计(density\ estimation)\\ 数据可视化(visualization)\\ \end{cases}\\ 强化学习(reinforcement\ learning)\\ \end{cases}\)
有监督学习(supervised learning)问题
训练数据的样本包含输⼊向量以及对应的⽬标向量的应⽤叫做有监督学习(supervised
learning)问题。
数字识别就是这个问题的⼀个例⼦,它的⽬标是给每个输⼊向量分配到有限数
量离散标签中的⼀个,被称为分类(classification)问题。
如果要求的输出由⼀个或者多个连续
变量组成,那么这个任务被称为回归(regression)。回归问题的⼀个例⼦是化学药品制造过程
中产量的预测。在这个问题中,输⼊由反应物、温度、压⼒组成。
⽆监督学习(unsupervised learning)
在其他的模式识别问题中,训练数据由⼀组输⼊向量x组成,没有任何对应的⽬标值。
在这样的⽆监督学习(unsupervised learning)问题中,⽬标可能是发现数据中相似样本的
分组,这被称为聚类(clustering),或者决定输⼊空间中数据的分布,这被称为密度估计
(density estimation),或者把数据从⾼维空间投影到⼆维或者三维空间,为了数据可视化
(visualization)。
强化学习(reinforcement learning)
最后,反馈学习(reinforcement learning)(Sutton and Barto, 1998)技术关注的问题是在给定的条件下,找到合适的动作,使得奖励达到最⼤值。这⾥,学习问题没有给定最优输出的⽤
例。这些⽤例必须在⼀系列的实验和错误中被发现。这与有监督学习相反。通常,有⼀个状态
和动作的序列,其中学习算法与环境交互。在许多情况下,当前动作不仅影响直接的奖励,也
对所有后续时刻的奖励有影响。例如,通过使⽤合适的反馈学习技术,⼀个神经⽹络可以学
会backgammon游戏的玩法,并且玩得很好(Tesauro, 1994)。这⾥神经⽹络必须学习把⼀⼤组位置信息、骰⼦投掷的结果作为输⼊,产⽣⼀个移动的⽅式作为输出。通过让神经⽹络⾃⼰和
⾃⼰玩⼀百万局,这个⽬的就可以达到。⼀个主要的挑战是backgammon游戏会涉及到相当多次的移动,但是只有在游戏结束的时候才能给出奖励(以胜利的形式)。奖励必须被合理地分配
给所有引起胜利的移动步骤。这些移动中,有些移动很好,其他的移动不是那么好。这是信⽤
分配(credit assignment)问题的⼀个例⼦。反馈学习的⼀个通⽤的特征是探索(exploration)和利⽤(exploitation)的折中。“探索”是指系统尝试新类型的动作,“利⽤”是指系统使⽤已知能产⽣较⾼奖励的动作。过分地集中于探索或者利⽤都会产⽣较差的结果。反馈学习继续是机器学
习研究中得⼀个活跃的领域。
2.机器学习步骤
训练集(training set)
⽬标向量(target vector)
过拟合(over-fitting)
特征抽取(feature extraction)
预处理(pre-processed)
训练(training)阶段/学习(learning)阶段
泛化(generalization)
模型选择(model selection)
3.过拟合问题
通过使⽤⼀种贝叶斯(Bayesian)⽅法,过拟合问题可以被避免。我们将会看到,从贝叶斯的观点来看,对于模型参数的数量超过数据点数量的情形,没有任何难解之处。实际上,⼀个贝叶斯模型中,参数的有效(effective)数量会⾃动根据数据集的规模调节。 --- 待学习
经常⽤来控制过拟合现象的⼀种技术是正则化(regularization)。这种技术涉及到给误差函数(1.2)增加⼀个惩罚项,使得系数不会达到很⼤的值。这种惩罚项最简单的形式采⽤所有系数的平⽅和的形式。这推导出了误差函数的修改后的形式:
有时候使⽤根均⽅(RMS)误差更⽅便。这个误差由下式定义:![]
公式(1.4)中的误差函数也可以⽤解析的形式求出最⼩值。像这样的技术在统计学的⽂献中被叫做收缩(shrinkage)⽅法,因为这种⽅法减⼩了系数的值。
⼆次正则项的⼀个特殊情况被称为⼭脊回归(ridge regression)(Hoerl and Kennard, 1970)。在神经⽹络的情形中,这种⽅法被叫做权值衰减(weight decay)。