计算学习原理

Hoefiding不等式
学习的联系：单个假设
学习的联系：多个假设
学习的可行性：两个核心条件
Growth Function
Break Point 和 Shatter
VC Bound
VC Dimension

参考资料

台湾大学《机器学习基石》视频
VC维的来龙去脉

Hoefiding不等式

$N$：样本量
$v$：样本均值
$u$：总体均值

\[P\left [ v-u\geqslant \varepsilon \right ]\leqslant e^{-2\varepsilon ^{2}N}\\ P\left [ |v-u|\geqslant \varepsilon \right ]\leqslant 2e^{-2\varepsilon ^{2}N} \]

学习的联系：单个假设

符号	描述说明
$H$	该机器学习方法的假设空间
$g$	表示我们求解的用来预测的假设($g$属于$H$)
$f$	理想的方案(可以是一个函数，也可以是一个分布)
$D$	样本集
$N$	样本量
$A$	算法
机器学习的过程就是：通过算法 $A$，在假设空间 $H$ 中，根据样本集 $D$，选择最好的假设作为 $g$ ，选择标准是 $g$ 近似于 $f$

设定，$h(x)$是我们预估得到的某一个目标函数，$h(x)$是假设空间$H$中的一个假说。

${E_{out}}(h)$：(out-of-sample)总体损失期望
${E_{in}}(h)$：(in-of-sample)样本损失期望

基于hoeffding不等式，可得到下面公式，当样本量$N$足够大时，${E_{out}}(h)$和${E_{in}}(h)$将非常接近

\[P\left [ |{E_{out}}(h)-{E_{in}}(h)|\geqslant \varepsilon \right ]\leqslant e^{-2\varepsilon ^{2}N} \]

学习的联系：多个假设

注意在上面推导中，我们是针对某一个特定的解$h(x)$。在我们的假设空间$H$中，往往有很多个假设函数(甚至于无穷多个)

让我们先来理解下单个假设$h$的上限，其公式中的$2e^{-2\varepsilon ^{2}N}$（超出我们设定的 $\varepsilon$ 的样本集就是坏样本）就是这个假设h遇上坏样本的上限（上限只是最坏的打算，大部分情况不会达到上限）

当多个假设存在，我们希望任意选择一个$h$都是没问题的，此时就需要标注出所有的坏数据集情况（对任意一个$h$是坏的，我就标注它是坏的）。那么我们任意选择一个$h$后 遇上坏样本的上限：就是所有$h$遇上坏样本的上限的并集。

任意选择一个$h$后 遇上坏样本的上限如下图所示，但有个新问题，就是我们没法计算交集部分的大小（反正我不会）

注：灰色部分是每个$h$遇上坏样本的上限，而彩色部分是实际的概率

既然无法计算，但我们却知道每个单独的$h$遇上坏样本的上限：$2e^{-2\varepsilon ^{2}N}$，既然这样，我们只能计算其上限的上限了，交集就只剩简单的加法了

好，公式推导如下

我们根据样本集$D$，随机从假设空间$H$(假设有$M$个假设)中选取一个$h$，都会满足下面的公式

\[P\left [ |{E_{out}}(h)-{E_{in}}(h)|\geqslant \varepsilon \right ]\leqslant Me^{-2\varepsilon ^{2}N} \]

学习的可行性：两个核心条件

\[P\left [ |{E_{out}}(h)-{E_{in}}(h)|\geqslant \varepsilon \right ]\leqslant Me^{-2\varepsilon ^{2}N} \]

根据上一节得到的公式，我们得到学习可行的两个条件：

如果假设空间$H$的size $M$是有限的，当$N$足够大时，那么对假设空间中任意一个$g$，${E_{out}}(h)$约等于${E_{in}}(h)$.
利用算法$A$从假设空间$H$中，挑选出一个$g$，使得${E_{in}}(h)$接近于0，${E_{out}}(h)$也接近为0.

上面这两个核心条件，也正好对应着test和train这两个过程。train过程希望损失期望(即${E_{in}}(h)$ )尽可能小；test过程希望在真实环境中的损失期望也尽可能小，即${E_{in}}(h)$接近于${E_{out}}(h)$

Growth Function

证明了学习的可行后（满足两个核心条件），新问题又来了：$M$的大小！

	条件一	条件二
$M$太小	容易满足${E_{out}}(h)$约等于${E_{in}}(h)$	不容易找到一个${E_{in}}(h)$足够小的
$M$太大	不同意满足	选择多了，容易找到${E_{in}}(h)$足够小的

对于一个假设空间，$M$可能是无穷大的。要能够继续推导下去，那么有一个直观的思路，能否找到一个有限的因子 $m_H$ 来替代不等式bound中的$M$.

\[P\left [ |{E_{out}}(h)-{E_{in}}(h)|\geqslant \varepsilon \right ]\leqslant 2 m_{H}e^{-2\varepsilon ^{2}N} \]

在第三节中，我们把每个假设的代价都做了独立分离，但实际它们都是有重叠的部分，其中有一些甚至是完全重叠，我们可以把几乎重叠的假设归为一类，但把所有假设归类后，我们就能得到有效的假设数量Effective Number of Hypotheses——$m_H$

将所有假设进行分类的依据又是什么呢？答案就在样本集$D$，例如在$H$有两个假设（$M$中的两个，废话），它们作用于样本集后，得出的结果一致，我们就可以将它们两归为一类；反过来讲，根据样本集$D$我们能得出这一类的假设（$m_H$的一个）。

所以，$m_H$是一个比M小很多的数，而且它会是个根据样本集$D$数量$N$呈多项式增长的数，它的增长公式称为**成长公式Growth Function*

\[P\left [ |{E_{out}}(h)-{E_{in}}(h)|\geqslant \varepsilon \right ]\leqslant 2\cdot {effective}(N) e^{-2\varepsilon ^{2}N} \]

~~成长公式的解释还没想好，就这样，next.~~

反正随着$N$增长，遇上坏样本的上限$2\cdot {effective}(N) e^{-2\varepsilon ^{2}N}$中一个是跟着多项式增长，一个跟着指数下降，指数必然打败多项式，所以总的来说随着$N$的增长，我们遇上坏样本的概率就会越来越低，${E_{out}}(h)$也就会越接近${E_{in}}(h)$. That's good！

Break Point 和 Shatter

先切断一些，看看两个概念：shatter 和 break point.

Shatter的概念：当假设空间$H$作用于$N$个样本时，产生的dichotomies数量（二分类）等于这$N$个点总的组合数$2N$ 时，就称：这$N$个样本被$H$给shatter.掉了。
要注意到 shatter 的原意是“打碎”，在此指“$N$个点的所有(碎片般的)可能情形都被$H$产生了”。所以${m_H}(N)=2N$ 的情形是即为“shatter”。

Break Point的概念：对于给定的成长函数${m_H}(N)$，从$N=1$出发，$N$慢慢变大，当增大到$k$时，出现${m_H}(N)<2k$的情形，则我们说k是该成长函数的break poin.

当$N$的数量大于$k$时，$H$都没有办法再shatter他们了。

VC Bound

有了Break Point的概念后，如果break point存在（有限的正整数），对与任意的样本集，我们都可以得到成长函数的上界，经过推导可得：

\[m_{H}(N)=\sum_{i=0}^{k-1}\binom{N}{i} \]

多项式增长！多项式的最高幂次项为：$ N^{k–1} $.
很开心，终于圆会Growth Function那一节的结论。

阶段性成果：能否用${m_H}(N)$直接替换M?

既然得到了$m(N)$的多项式上界，我们希望对之前的不等式中$M$ 进行替换，用$m_H(N)$来替换$M$。这样替换后，当break point存在时，N足够大时，该上界是有限的。

然而直接替换是存在问题的，主要问题是：$E_{in}$的可能取值是有限个的，但$E_{out}$的可能取值是无限的。可以通过将$E_{out}$替换为验证集(verification set) 的$E_{in}$ 来解决这个问题。下面是推导过程：

VC Dimension

最后，VC维！暂时不想写，再理理！

posted @ 2018-12-02 09:36 stream886 阅读(975) 评论(0) 收藏举报

刷新页面返回顶部

符号	描述说明
\(H\)	该机器学习方法的假设空间
\(g\)	表示我们求解的用来预测的假设(\(g\)属于\(H\))
\(f\)	理想的方案(可以是一个函数，也可以是一个分布)
\(D\)	样本集
\(N\)	样本量
\(A\)	算法
机器学习的过程就是：通过算法 \(A\)，在假设空间 \(H\) 中，根据样本集 \(D\)，选择最好的假设作为 \(g\) ，选择标准是 \(g\) 近似于 \(f\)

	条件一	条件二
\(M\)太小	容易满足\({E_{out}}(h)\)约等于\({E_{in}}(h)\)	不容易找到一个\({E_{in}}(h)\)足够小的
\(M\)太大	不同意满足	选择多了，容易找到\({E_{in}}(h)\)足够小的

守墨岭