西瓜书1、2章学习笔记
第一章 绪论
1.1 机器学习任务类型
- 若预测的是离散值,为分类任务,只涉及两个类别为二分类,涉及多个类别为多分类。
- 若预测的是连续值,为回归任务。
- 根据训练数据是否有标记信息,可分为监督学习和无监督学习,分类和回归是前者的代表,聚类是后者的代表。
1.2 机器学习的目标
具有强泛化能力(泛化能力:所学模型适用于新样本的能力)。
1.3 假设空间
- 可以将学习过程看作一个在所有假设组成的空间中进行搜索的过程,目标是找到与训练集匹配的假设。
- 对假设空间进行空间搜索的方法:自顶向下,从一般到特殊,或自底向上,从特殊到一般,在搜索过程中不断删除与正例不一致的假设。
- 存在一个与训练集一致的假设集合,称之为版本空间。
1.4 归纳偏好
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
- 任何一个有效的机器学习算法必有其归纳偏好 。
- “奥卡姆剃刀”可作为一种一般性的原则来引导算法确立,即“若有多个假设与观察一致,选最简单的那个”。
- 书中NFL定理的简单论述告诉我们不存在完美算法,各个算法之间并不存在绝对的优劣,每种机器学习算法都有其适用的范围,脱离具体问题,空谈“什么学习算法更好”毫无意义。
第二章 模型评估与选择
2.1 经验误差与过拟合
错误率:
式中m为样本个数,a为分类错误样本个数
精度:精度=1-错误率
经验误差:学习器在训练集上的误差,又称“训练误差”;泛化误差:学习器在新样本上的误差
过拟合是由于模型的学习能力相对于数据来说过于强大,欠拟合是因为模型的学习能力相对数据来说过于低下。
2.2评估法
留出法:将数据集\(D\)划分为两个互斥的集合,其中一个作为训练集\(S\),另一个作为测试集\(T\)。
交叉验证法:先将数据集\(D\)划分为k个大小相似的互斥子集,即\(D={D_1}\cup{D_2}\cup...\cup{D_k}, {D_i}\cap{D_j}=\varnothing(i\neq{j})\),每个子集尽可能保持数据分布的一致性。然后,每次用\(k-1\)个子集的并集作为训练集,余下的那个子集作为测试集。
自助法:给定包含\(m\)个样本的数据集\(D\),每次随机从\(D\)中挑选一个样本,将其拷贝放入\(D'\),然后再将该样本放回初始数据集\(D\)中,使得该样本在下次采样时仍有可能被采到;这个过程重复\(m\)次后,我们就得到了包含\(m\)个样本的数据集\(D'\)。
2.3性能度量
回归任务最常用的性能度量是“均方误差”,一般的,对于数据分布\(D\)和概率密度函数\(p(.)\),均方误差可描述为:
一般的,对于数据分布\(D\)和概率密度函数\(p(.)\),错误率与精度可分别表示为
查准率P:被学习器预测为正例的样例中有多大比例时真正例
查全率R:所有正例当中有多大比例被学习器预测为正例
综合考察查准率和查全率的性能度量:\(F1\)
\(F1\)是基于查准率与查全率的调和平均定义:
\(F_\beta\)则是加权调和平均:
\(\beta>1\)时查全率有更大影响;\(\beta<1\)时查准率有更大影响。
\(ROC\)曲线:“受试者工作特征”曲线,以假正例率为横轴,真正例率为纵轴
给定\(m^+\)个正例和\(m^-\)个反例,令\(D^+\)和\(D^-\)分别表示正、反例集合,则排序“损失”定义为:
\(ROC\)的曲线与坐标轴围成的面积:
\(l_{rank}\)指的是从测试集中随机抽取正反例对,模型\(f(x)\)排序错误的概率,\(AUC\)则指的是从测试集中随机抽取正反例对,模型\(f(x)\)排序正确的概率,显然,\(AUC\)越大越好。
2.4比较检验
在包含\(m\)个样本的测试集上,泛化错误率为\(\epsilon\)的学习器被测得测试错误率为\(\widehat{\epsilon}\)的概率:
其中
为组合数,即\(C_m^{\widehat{\epsilon}\times{m}}\)。
给定测试错误率,解\(\partial{P(\widehat{\epsilon};\epsilon)}/\partial\epsilon=0\)可知,\(P(\widehat{\epsilon};\epsilon)\)在\(\epsilon=\widehat{\epsilon}\)时最大,\(|\epsilon-\widehat{\epsilon}|\)增大时\(P(\widehat{\epsilon};\epsilon)\)减小,这符合二项分布。
2.5偏差与方差
对测试样本\(x\),令\(y_D\)为\(x\)在数据集中的标记,\(y\)为\(x\)的真实标记,\(f(x;D)\)为训练集\(D\)上学得模型f\(在\)x$上的预测输出。以回归任务为例,学习算法的期望预测为
使用样本数相同的不同训练集产生的方差
噪声为
期望输出与真实标记的差别成为偏差\((bias)\),即
泛化误差可分解为偏差、方差与噪声之和,即
推导过程省略,详细推导可参考南瓜书与西瓜书。

浙公网安备 33010602011771号