西瓜书1、2章学习笔记

第一章 绪论

1.1 机器学习任务类型

  • 若预测的是离散值,为分类任务,只涉及两个类别为二分类,涉及多个类别为多分类
  • 若预测的是连续值,为回归任务。
  • 根据训练数据是否有标记信息,可分为监督学习和无监督学习,分类和回归是前者的代表,聚类是后者的代表。

1.2 机器学习的目标

具有强泛化能力(泛化能力:所学模型适用于新样本的能力)。

1.3 假设空间

  • 可以将学习过程看作一个在所有假设组成的空间中进行搜索的过程,目标是找到与训练集匹配的假设。
  • 对假设空间进行空间搜索的方法:自顶向下,从一般到特殊,或自底向上,从特殊到一般,在搜索过程中不断删除与正例不一致的假设。
  • 存在一个与训练集一致的假设集合,称之为版本空间

1.4 归纳偏好

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好

  • 任何一个有效的机器学习算法必有其归纳偏好 。
  • “奥卡姆剃刀”可作为一种一般性的原则来引导算法确立,即“若有多个假设与观察一致,选最简单的那个”。
  • 书中NFL定理的简单论述告诉我们不存在完美算法,各个算法之间并不存在绝对的优劣,每种机器学习算法都有其适用的范围,脱离具体问题,空谈“什么学习算法更好”毫无意义。

第二章 模型评估与选择

2.1 经验误差与过拟合

错误率

\[E=\frac{a}{m} \]

式中m为样本个数,a为分类错误样本个数

精度:精度=1-错误率

经验误差:学习器在训练集上的误差,又称“训练误差”;泛化误差:学习器在新样本上的误差

过拟合是由于模型的学习能力相对于数据来说过于强大,欠拟合是因为模型的学习能力相对数据来说过于低下。

2.2评估法

留出法:将数据集\(D\)划分为两个互斥的集合,其中一个作为训练集\(S\),另一个作为测试集\(T\)

交叉验证法:先将数据集\(D\)划分为k个大小相似的互斥子集,即\(D={D_1}\cup{D_2}\cup...\cup{D_k}, {D_i}\cap{D_j}=\varnothing(i\neq{j})\),每个子集尽可能保持数据分布的一致性。然后,每次用\(k-1\)个子集的并集作为训练集,余下的那个子集作为测试集。

自助法:给定包含\(m\)个样本的数据集\(D\),每次随机从\(D\)中挑选一个样本,将其拷贝放入\(D'\),然后再将该样本放回初始数据集\(D\)中,使得该样本在下次采样时仍有可能被采到;这个过程重复\(m\)次后,我们就得到了包含\(m\)个样本的数据集\(D'\)

2.3性能度量

回归任务最常用的性能度量是“均方误差”,一般的,对于数据分布\(D\)和概率密度函数\(p(.)\)均方误差可描述为:

\[E(f;D)=\int_{x\sim{D}}(f(x)-y)^2p(x)dx \]

一般的,对于数据分布\(D\)和概率密度函数\(p(.)\),错误率与精度可分别表示为

\[E(f;D)=\int_{x\sim{D}}Ⅱ(f(x)\neq{y})p(x)dx \]

\[acc(f;D)=\int_{x\sim{D}}Ⅱ(f(x)={y})p(x)dx=1-E(f;D) \]

查准率P:被学习器预测为正例的样例中有多大比例时真正例

查全率R:所有正例当中有多大比例被学习器预测为正例

综合考察查准率和查全率的性能度量:\(F1\)
\(F1\)是基于查准率与查全率的调和平均定义:

\[\frac1{F1}=\frac1{2}\cdot(\frac1{P}+\frac1{R}) \]

\(F_\beta\)则是加权调和平均:

\[\frac{1}{F_\beta}=\frac{1}{1+{\beta}^2}\cdot(\frac1{P}+\frac{\beta^2}{R}) \]

\(\beta>1\)时查全率有更大影响;\(\beta<1\)时查准率有更大影响。

\(ROC\)曲线:“受试者工作特征”曲线,以假正例率为横轴,真正例率为纵轴
给定\(m^+\)个正例和\(m^-\)个反例,令\(D^+\)\(D^-\)分别表示正、反例集合,则排序“损失”定义为:

\[\ell_{rank}=\frac{1}{m^+m^-}\sum\limits_{x^+\in{D^+}}\sum\limits_{x^+\in{D^-}}(Ⅱ(f(x^+)<f(x^-))+\frac1{2}Ⅱ(f(x^+)=f(x^-))) \]

\(ROC\)的曲线与坐标轴围成的面积:

\[AUC=1-\ell_{rank} \]

\(l_{rank}\)指的是从测试集中随机抽取正反例对,模型\(f(x)\)排序错误的概率,\(AUC\)则指的是从测试集中随机抽取正反例对,模型\(f(x)\)排序正确的概率,显然,\(AUC\)越大越好。

2.4比较检验

在包含\(m\)个样本的测试集上,泛化错误率为\(\epsilon\)的学习器被测得测试错误率为\(\widehat{\epsilon}\)的概率:

\[P(\widehat{\epsilon},\epsilon)=\begin{pmatrix}m\\\widehat{\epsilon}\times{m}\\\end{pmatrix}\epsilon^{\widehat{\epsilon}\times{m}}(1-\epsilon)^{m-\widehat{\epsilon}\times{m}} \]

其中

\[\begin{pmatrix} m\\ \widehat{\epsilon}\times{m}\\ \end{pmatrix}=\frac{m!}{(\widehat{\epsilon}\times{m})!(m-\widehat{\epsilon}\times{m})!} \]

为组合数,即\(C_m^{\widehat{\epsilon}\times{m}}\)

给定测试错误率,解\(\partial{P(\widehat{\epsilon};\epsilon)}/\partial\epsilon=0\)可知,\(P(\widehat{\epsilon};\epsilon)\)\(\epsilon=\widehat{\epsilon}\)时最大,\(|\epsilon-\widehat{\epsilon}|\)增大时\(P(\widehat{\epsilon};\epsilon)\)减小,这符合二项分布。

2.5偏差与方差

对测试样本\(x\),令\(y_D\)\(x\)在数据集中的标记,\(y\)\(x\)的真实标记,\(f(x;D)\)为训练集\(D\)上学得模型f\(在\)x$上的预测输出。以回归任务为例,学习算法的期望预测为

\[\overline{f}(x)=E_D[f(x;D)]=\frac1{n}(f(x;D_1)+....+f(x;D_n)) \]

使用样本数相同的不同训练集产生的方差

\[var(x)=E_D[(f(x;D)-\overline{f}(x))^2] =\frac1{n}((f(x;D_1)-\overline{f}(x))^2+.....+(f(x;D_n)-\overline{f}(x))^2) \]

噪声为

\[\varepsilon^2=E_D[(y_D-y)^2]=\frac1{n}((y_{D1}-y)^2+...+(y_{Dn}-y)^2) \]

期望输出与真实标记的差别成为偏差\((bias)\),即

\[bias^2(x)=(\overline{f}(x)-y)^2 \]

泛化误差可分解为偏差、方差与噪声之和,即

\[E(f;D)=bias^2(x)+var(x)+\varepsilon^2 \]

推导过程省略,详细推导可参考南瓜书与西瓜书。

posted @ 2024-10-16 23:08  yswtg  阅读(32)  评论(0)    收藏  举报