西瓜书1、2章学习笔记

第一章绪论

1.1 机器学习任务类型

若预测的是离散值，为分类任务，只涉及两个类别为二分类，涉及多个类别为多分类。
若预测的是连续值，为回归任务。
根据训练数据是否有标记信息，可分为监督学习和无监督学习，分类和回归是前者的代表，聚类是后者的代表。

1.2 机器学习的目标

具有强泛化能力（泛化能力：所学模型适用于新样本的能力）。

1.3 假设空间

可以将学习过程看作一个在所有假设组成的空间中进行搜索的过程，目标是找到与训练集匹配的假设。
对假设空间进行空间搜索的方法：自顶向下，从一般到特殊，或自底向上，从特殊到一般，在搜索过程中不断删除与正例不一致的假设。
存在一个与训练集一致的假设集合，称之为版本空间。

1.4 归纳偏好

归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好

任何一个有效的机器学习算法必有其归纳偏好。
“奥卡姆剃刀”可作为一种一般性的原则来引导算法确立，即“若有多个假设与观察一致，选最简单的那个”。
书中NFL定理的简单论述告诉我们不存在完美算法，各个算法之间并不存在绝对的优劣，每种机器学习算法都有其适用的范围，脱离具体问题，空谈“什么学习算法更好”毫无意义。

第二章模型评估与选择

2.1 经验误差与过拟合

错误率：

\[E=\frac{a}{m} \]

式中m为样本个数，a为分类错误样本个数

精度：精度=1-错误率

经验误差：学习器在训练集上的误差，又称“训练误差”；泛化误差：学习器在新样本上的误差

过拟合是由于模型的学习能力相对于数据来说过于强大，欠拟合是因为模型的学习能力相对数据来说过于低下。

2.2评估法

留出法：将数据集$D$划分为两个互斥的集合，其中一个作为训练集$S$,另一个作为测试集$T$。

交叉验证法：先将数据集$D$划分为k个大小相似的互斥子集，即$D={D_1}\cup{D_2}\cup...\cup{D_k}, {D_i}\cap{D_j}=\varnothing(i\neq{j})$，每个子集尽可能保持数据分布的一致性。然后，每次用$k-1$个子集的并集作为训练集，余下的那个子集作为测试集。

自助法：给定包含$m$个样本的数据集$D$，每次随机从$D$中挑选一个样本，将其拷贝放入$D'$，然后再将该样本放回初始数据集$D$中，使得该样本在下次采样时仍有可能被采到；这个过程重复$m$次后，我们就得到了包含$m$个样本的数据集$D'$。

2.3性能度量

回归任务最常用的性能度量是“均方误差”，一般的，对于数据分布$D$和概率密度函数$p(.)$，均方误差可描述为:

\[E(f;D)=\int_{x\sim{D}}(f(x)-y)^2p(x)dx \]

一般的，对于数据分布$D$和概率密度函数$p(.)$，错误率与精度可分别表示为

\[E(f;D)=\int_{x\sim{D}}Ⅱ(f(x)\neq{y})p(x)dx \]

\[acc(f;D)=\int_{x\sim{D}}Ⅱ(f(x)={y})p(x)dx=1-E(f;D) \]

查准率P：被学习器预测为正例的样例中有多大比例时真正例

查全率R：所有正例当中有多大比例被学习器预测为正例

综合考察查准率和查全率的性能度量：$F1$
$F1$是基于查准率与查全率的调和平均定义：

\[\frac1{F1}=\frac1{2}\cdot(\frac1{P}+\frac1{R}) \]

$F_\beta$则是加权调和平均：

\[\frac{1}{F_\beta}=\frac{1}{1+{\beta}^2}\cdot(\frac1{P}+\frac{\beta^2}{R}) \]

$\beta>1$时查全率有更大影响；$\beta<1$时查准率有更大影响。

$ROC$曲线：“受试者工作特征”曲线，以假正例率为横轴，真正例率为纵轴
给定$m^+$个正例和$m^-$个反例，令$D^+$和$D^-$分别表示正、反例集合，则排序“损失”定义为:

\[\ell_{rank}=\frac{1}{m^+m^-}\sum\limits_{x^+\in{D^+}}\sum\limits_{x^+\in{D^-}}(Ⅱ(f(x^+)<f(x^-))+\frac1{2}Ⅱ(f(x^+)=f(x^-))) \]

$ROC$的曲线与坐标轴围成的面积:

\[AUC=1-\ell_{rank} \]

$l_{rank}$指的是从测试集中随机抽取正反例对，模型$f(x)$排序错误的概率，$AUC$则指的是从测试集中随机抽取正反例对，模型$f(x)$排序正确的概率，显然，$AUC$越大越好。

2.4比较检验

在包含$m$个样本的测试集上，泛化错误率为$\epsilon$的学习器被测得测试错误率为$\widehat{\epsilon}$的概率：

\[P(\widehat{\epsilon},\epsilon)=\begin{pmatrix}m\\\widehat{\epsilon}\times{m}\\\end{pmatrix}\epsilon^{\widehat{\epsilon}\times{m}}(1-\epsilon)^{m-\widehat{\epsilon}\times{m}} \]

其中

\[\begin{pmatrix} m\\ \widehat{\epsilon}\times{m}\\ \end{pmatrix}=\frac{m!}{(\widehat{\epsilon}\times{m})!(m-\widehat{\epsilon}\times{m})!} \]

为组合数，即$C_m^{\widehat{\epsilon}\times{m}}$。

给定测试错误率，解$\partial{P(\widehat{\epsilon};\epsilon)}/\partial\epsilon=0$可知，$P(\widehat{\epsilon};\epsilon)$在$\epsilon=\widehat{\epsilon}$时最大，$|\epsilon-\widehat{\epsilon}|$增大时$P(\widehat{\epsilon};\epsilon)$减小，这符合二项分布。

2.5偏差与方差

对测试样本$x$，令$y_D$为$x$在数据集中的标记，$y$为$x$的真实标记，$f(x;D)$为训练集$D$上学得模型f$在$x$上的预测输出。以回归任务为例，学习算法的期望预测为

\[\overline{f}(x)=E_D[f(x;D)]=\frac1{n}(f(x;D_1)+....+f(x;D_n)) \]

使用样本数相同的不同训练集产生的方差

\[var(x)=E_D[(f(x;D)-\overline{f}(x))^2] =\frac1{n}((f(x;D_1)-\overline{f}(x))^2+.....+(f(x;D_n)-\overline{f}(x))^2) \]

噪声为

\[\varepsilon^2=E_D[(y_D-y)^2]=\frac1{n}((y_{D1}-y)^2+...+(y_{Dn}-y)^2) \]

期望输出与真实标记的差别成为偏差$(bias)$，即

\[bias^2(x)=(\overline{f}(x)-y)^2 \]

泛化误差可分解为偏差、方差与噪声之和，即

\[E(f;D)=bias^2(x)+var(x)+\varepsilon^2 \]

推导过程省略，详细推导可参考南瓜书与西瓜书。

posted @ 2024-10-16 23:08 yswtg 阅读(32) 评论(0) 收藏举报

刷新页面返回顶部

yswtg