机器学习基石第七讲 The VC Dimension
一.Definition of VC Dimension
这一部分就是对之前的复习与回顾,同时介绍了一下VC Dimension。
传统的定义是:对一个指示函数集,如果存在H个样本能够被函数集中的函数按所有可能的2的H次方种形式分开,则称函
数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能将它们打散,
则函数集的VC维是无穷大,有界实函数的VC维可以通过用一定的阈值将它转化成指示函数来定义。
VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大),遗憾的是,目前尚没有通用的关于任意函数
集VC维计算的理论,只对一些特殊的函数集知道其VC维。例如在N维空间中线形分类器和线形实函数的VC维是N+1。
二.VC Dimension of Perceptrons
由于存在d+1维的x可以被shatter,所以k>d+1 => dvc ≥ d+1;
由于X是可逆矩阵,所以对于所有的y,Xw = y,都是有解的==>X是可以被shatter的
任意d+2都不能被shatter,所以k <= d+2 => dvc ≤ d+1
由于线性相关Xd+2可以由X1~Xd+1表示,通过反证法,我们假设d+2可以shatter,那么存在一种情况,at是正的
wxt就是0(正的),是负的wxt就是x(负的),所以如上图wxd+2肯定是正的,那么就少了wxd+2是负的这种情况,
与d+2可以shatter矛盾,即不可shatter => k <= d+2 => dvc <= d+1
三.Physical Intuition of VC Dimension
VC Dimension大体上相当于自由度,所以估计VC Dimension的时候可以看看有多少可以调节的按钮
VC Dimension很小,坏事情发生的概率就小,对Ein和Eout接不接近是好事,但很可能Ein就没办法做到很小,自由度受
到了限制;VC Dimension变大,可能很多时候Ein和Eout根本不接近。和大M的选择类似。
实际上只有d个旋钮,所以可估算VC Dimension是d
四.Interpreting VC Dimension
为什么我需要的资料很宽松,我们在VC bound上就很宽松,取的都是上界,所以显得VC bound很大,我们可以放宽对
资料数量的要求