统计学习方法(一):泛化误差上界

介绍

泛化误差上界可理解为模型学习能力的“出错上限”,显然,当样本容量趋于无穷大时,泛化误差上界趋于\(0\).

本文介绍较简单的二分类问题中的泛化误差上界.以下先给出结论:

定理

在二分类问题中,若假设空间为有限个函数的集合\(\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}\)
对于任意一个函数\(f \in \mathcal{F}\),至少以概率\(1-\delta\),

以下不等式成立:

\[R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta) \tag{1.1} \]

其中,

\[R(f)=E[L(Y,f(X))] \tag{1.2} \]

\[\hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L(y_i, f(x_i)) \tag{1.3} \]

\[\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} \tag{1.4} \]

\((1.1)\)中,\(R(f)\)为泛化误差,或者称之为测试集上的期望风险,\(\hat{R}(f)\)为训练集上的经验风险,\(\hat{R}(f)+\varepsilon(d, N, \delta)\)即为泛化误差上界.观察式\((1.2)\)可知,泛化误差上界与样本数\(N\)成正比,与假设空间包含的函数数量\(d\)成反比. 因此:当样本数\(N\)越大,泛化误差上界越小,当假设空间\(\mathcal{F}\)包含的函数越多,泛化误差上界越大.

证明

证明利用了Hoeffding不等式:

\(Sn= \sum_{i=1}^{N} X_i\)是独立随机变量\(X_1, X_2,\cdots,X_n\)之和,\(X_i \in [a_i, b_i]\),则对任意\(t>0\),以下不等式成立:

\[P(S_n - E(S_n) \geqslant t) \leqslant \exp \left(\frac{-2t^2}{\sum_{i=1}^{n}(b_i - a_i)^2} \right ) \tag{1.5} \]

\[P(E(S_n) - S_n \geqslant t) \leqslant \exp \left(\frac{-2t^2}{\sum_{i=1}^{n}(b_i - a_i)^2} \right ) \tag{1.6} \]

观察式\((1.2)\)可知,\(R(f)\)是随机变量\(L(Y,f(X))\)的期望值.观察式\((1,3)\)可知,\(\hat R(f)\)\(N\)个独立随机变量\(L(Y,f(X))\)的样本均值. 因此我们需要找到\(\bar X_n\)\(E(\bar X_n)\)之间的关系. 对上述Hoeffding不等式进行变形:

\[P(\bar X_n - E(\bar X_n) \geqslant t) =P(S_n-E(S_n) \geqslant nt) \leqslant \exp \left(\frac {-2n^2t^2}{\sum_{i=1}^{n} (b_i - a_i)^2}\right) \tag{1.7}\]

在二分类问题中,显然\(a_i=0\)\(b_i=1\),因此上式可写为:

\[P \left(R(f) - \hat{R}(f) \geqslant \varepsilon \right) \leqslant \exp (-2N \varepsilon^2) \tag{1.8} \]

从假设空间的全部函数上看,上式可写为:

\[P(\exists f \in \mathcal{F}: R(f) - \hat{R}(f) \geqslant \varepsilon ) = P \left(\bigcup_{f \in \mathcal{F}} \{R(f) - \hat{R}(f) \geqslant \varepsilon \} \right) \leqslant d \exp (-2N \varepsilon^2) \tag{1.9} \]

考虑对立事件。对任意\(f \in \mathcal{F}\), 有:

\[P(R(f)-\hat{R}(f) < \varepsilon) \geqslant 1 - d \exp(-2N\varepsilon^2) \tag{1.10} \]

令:

\[\delta = d \exp(-2N\varepsilon^2) \tag{1.11} \]

\(\varepsilon\)的值可由上式反解得出,即得到式\((1.4)\)

综上,至少以概率\(1-\delta\)\(P(R(f) < \hat{R}(f) + \varepsilon)\)成立,证毕.

总结

然而这只是最简单的二分类里的结论,对于更一般的假设空间如何找出泛化误差上界就超出我的认知范围了,路漫漫其修远兮Orz.

参考文献:[1] 李航.统计学习方法(第2版)[M].北京:清华大学出版社, 2019.

posted @ 2020-09-23 19:51  AIchemistar  阅读(3167)  评论(2编辑  收藏  举报