概述

机器学习致力于如何通过计算手段，利用经验来改善系统自身的性能，在计算机系统中，“经验”通常以“数据”的形式出现。

基本术语#

样本：在数据集合中的每条数据就称为一个样本。
属性/特征：反应样本在某方面的表现或者性质
属性空间/样本空间/输入空间：指的是某一特征下取值的范围。
输出空间：表示样例的分类的种类等。
学习/训练：通常指从数据中学到模型的过程。
任务的分类
- 分类任务：输出空间为离散值。比如，好坏瓜用0，1表示。
- 回归任务：输出空间为连续值。比如，好瓜用概率表示。
学习任务
- 监督学习：训练数据拥有标记信息，比如训练任务有标记好瓜和坏瓜。
- 无监督学习：训练数据没有标记信息。
泛化能力：模型能够正确处理没有在训练样本中样本的能力。

假设空间#

归纳：从特殊到一般的“泛化”过程，从具体的事实归结出一般性规律。
从一般到特殊的“特化”过程，既从基础原理推演出具体情况。
归纳学习：
- 广义归纳学习：从样本中学习
- 狭义归纳学习：从训练集中学习。

学习过程看做一个所有假设组成的空间中进行搜索的过程，搜索的目标是找到与训练集”匹配“的假设。如果假设的表示一旦确定了，则假设空间的大小和规模就确定了。
比如判断一个瓜是否是好瓜的假设，其中瓜的属性为（色泽，根蒂，敲声）如果，色泽，根蒂，敲声分别有3，2，2种取值的可能。则假设空间的规模大小为（3+1）（2+1）（2+1）+1=37。下面可以直观的表示假设空间：

可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊, 或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设.最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果.

版本空间：有很多个假设与训练集一致，既存在着一个与训练集一致的”假设集合“。则称之为“版本空间”。

归纳偏好#

机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”或简称“偏好”。
注意：任何一个有效的机器学习算法读必须有其归纳偏好，否则它将被假设空间中看似在训练集上“等效”的假设所迷惑，而无法产生确定的学习结果。如果没有偏好，本质上在进行预测试时随机抽选训练集上的等效假设。这样的话，如果是预测数据，那么学到的模型的几次调用会出现不同的结果。
奥卡剃刀：如果有多个假设与观察一致，则选择最简单那个。
结论：样本空间X和假设空间H都是离散的。令 $P(h|X,M_{a})$ 代表算法 $M_{a}$ 基于训练数据产生假设h的概率，令f代表希望学习的真实目标函数。则算法 $M_{a}$ 算法的误差为：