原文地址:https://www.jianshu.com/p/9bf316061271
一、限界函数
若\(H\)的断点为\(k\),即\(k\)个数据点不能被\(H\)给shatter,那么\(k+1\)个数据点也不能被\(H\)给shatter,即\(k+1\)也是\(H\)的断点。如果给定的样本数\(N\)是大于等于\(k\)的,易得\(m_H(N)<2^N\),且随着\(N\)的增大,其小得越来越多。
当断点为\(k\)时,记最大可能的成长函数\(m_H(N)\)为bound函数,记为\(B(N,k)\),其只和\(N\)、\(k\)有关。
注意比较,发现bound函数比起成长函数消除了\(H\)。如果无断点,自然没有\(B(N,k)\)什么事;如果断点为\(k\),那么\(m_H(N)\)是给定\(H\)下,在\(N\)上可能的最大假设类数;\(B(N,k)\)是不限\(H\)下,在\(N\)上可能的最大假设类数。\(B(N,k)=\max\limits_H \ m_H(N)\),只和样本数\(N\)和断点\(k\)有关。注意这里的\(H\)要求有相同的\(k\)。
通过数学归纳法可证得:\(B(N,k)\)实际被\(N^{k-1}\)所框住。
既然成长函数的上限被\(N\)的多项式给框住,易得,如果断点存在的话,成长函数是多项式型的,证明了上一节的猜想。
二、VC边界
再看保证\(E_{in}\)和\(E_{out}\)的不等式,可以证得:
证明如下:
- 用和训练集同样大小的测试集上的表现替代整体输入空间上的表现,认为使得训练集内和整体表现差异过大的坏数据也会使得训练集和测试集上的表现差异过大;
这里做了2件事:
一是用有限的训练集+有限的测试集替代了无限的输入空间,将无限的\(X\)变为数量为\(2N\)的有限数据集;
二是用完美划分该有限数据集的模式\(f'\)代替了完美划分整个输入空间的模式\(f\)。这一步实际是进行了松弛操作,因为\(f'\)的数量多于\(f\)。
- 用有限类数\(m_H(2N)\)替代无限\(|H|\);
- 使用不放回的霍夫丁不等式。
对应于在取小球实验里不放回地抽取,取出的橘色小球频率和罐子里剩余的橘色小球概率依旧概率近似相等。因为 the inequalities also hold when the \(X_i\) have been obtained using sampling without replacement; in this case the random variables are not independent anymore.(来自维基百科)
最终得到VC bound:
所以,2维感知器算法在训练集\(D\)上学习到的\(g\)泛化到整个输入空间\(X\)上是概率近似可行的。
那3维及以上维数的感知器算法呢?