【笔记】机器学习基础 - Ch3. Rademacher Complexity & VC-Dimension

🥰 | 😱

3.1 Rademacher Complexity

现在考虑无限集合 H,并给出几个 guarantee
损失函数为映射 L:Y×YR;样本 (x,y) 通过某个假设 hH 再通过某个损失函数,可以视作一个从 Z=X×YR 的映射 g,其集合 G 用以表示上述 “基于 H 的损失函数集合”:G={g:(x,y)L(h(x),y):hH}={g:ZR}
Rademacher Complexity 通过刻画函数集合 “拟合噪声的能力”,进而刻画其丰富程度(captures the richness of a family of functions by measuring the degree to which a hypothesis set can fit random noise)

定义 Empirical Rademacher complexity
函数集合 G={g:Z[a,b]};样本 S=(z1,,zm)Zm,定义 G 就关于 S 的 “经验 Rademacher 复杂度” 为:

R^S(G)=Eσ[supgG1mi=1mσig(zi)]=Eσ[supgGσgSm]

其中 “噪声” σ=(σ1,,σm),为 m 个独立服从 {1,+1} 平均分布的变量,也称为 Rademacher 变量(后面证明里会提到这个谜之变量怎么出现的);我们用 g 对样本 S 的映射结果 gS 作为拟合噪声,并用点积刻画拟合程度(既然映射结果是有界的,那么这么理解还是有道理的)。
可见 R^S(G) 表示 G 中以采样 S “尽可能拟合”(通过 g 映射并取上界)各个噪声的平均能力(取期望值),从而反映 G 的丰富程度。
进一步地,定义 G 的 “Rademacher 复杂度” 为:

定义 Rademacher complexity
SDm,对于任意正整数 mGRademacher complexity 为其抽取 m 个样本得到经验 Rademacher 复杂度的期望值,也就是 “期望以随机采样” 拟合各个噪声的平均能力:

Rm(G)=ESDm[R^S(G)]

接下来就损失函数的期望,给出 generalization bound:

定理
函数集合 G={g:Z[0,1]};以 i.i.d. 抽取 S=(z1,,zm),对于任意 δ>0,以至少 1δ 的概率,对任意 gG 都有其期望值 E[g]

(1)EzD[g(z)]1mi=1mg(zi)+2Rm(G)+log1δ2m

(2)EzD[g(z)]1mi=1mg(zi)+2R^S(G)+3log2δ2m

也就是说,以很大的概率,G任意一个损失函数 g 的期望值 E[g],通过采样,都被采样试探出的平均值 + 一个刻画 G 多样性的值(或者 G 单就在样本 S 上体现的多样性)+ 一个负相关于采样数量的值给上限住了。单个函数为什么会和总体多样性有关?感性理解这是 “任意” 带来的代价。
证明:
对于 (1) 式,将 g 关于 S 的经验平均值记为 E^S[g]=1mi=1mg(zi),并移到左边:E[g]E^S[g];定理对任意 g 的表述,等价刻画成左式看作关于 S 的函数并在 G 取上界 Φ(S)=supgG(E[g]E^S[g]),然后考虑对其放缩
考虑 McDiarmid 不等式(见补充)用在 Φ(S) 上:对于仅有一个点改变的 S,S,由于上界的差不超过差的上界,有 Φ(S)Φ(S)supgG(E^S[g]E^S[g])1/m,于是应用不等式,以至少 1δ/2 的概率,有 Φ(S)ES[Φ(S)]+log(2/δ)2m,接下来考虑这个期望值:

ES[Φ(S)]=ES[supgG(E[g]E^S(g))]=ES[supgGES[E^S(g)E^S(g)]];double sample trick 从而统一形式ES,S[supgG(E^S(g)E^S(g))];supE[X]E[supX]=ES,S[supgG(1mi=1m(g(zi)g(zi)))];接下来引入 Rademacher 变量!=Eσ,S,S[supgG(1mi=1mσi(g(zi)g(zi)))];S,S 对称,任意交换 z,z2Eσ,S[supgG(1mi=1mσig(zi))]=2Rm(G);sup(A+B)supA+supB

注意证明里自从引入了谜之 Rademacher 变量,我们将对称的 S,S 分开后可以摆脱正负号限制(随意变号),真是神奇的设计
从而 (1) 式以至少 1δ 概率成立;对于 (2) 式,只需要在 (1) 式的基础上,注意到 R^S(G) 在改变一个样本点时最多改变 1/m(注意 g 只映射到 [0,1])且 ES(R^S(G))=Rm(G),故再次使用 McDiarmid 不等式,以至少 1δ/2 概率有 Rm(G)R^S(G)+log(2/δ)2m 然后用 union bound 简单相加概率,即可证得 (2) 式。

二分类:泛化误差的界
本文后面的内容中,我们基本都对二分类进行讨论
H={h:XY={1,+1}}G={(x,y)1h(x)y:hH},记 S=(x1,,xm),S=((x1,y1),,(xm,ym))
我们以 zero-one loss 1h(x)y 固定住 g,从而使得基于 HG 变成只是 H 和固定映射的复合,然后回顾一下之前提到的概念:
E[g]=E(x,y)[1h(x)y]=R(h) 即泛化误差;E^S[g]=1mi=1m1h(xi)yi=R^S(h) 即经验误差;那么 R^S(G) 又变成什么了呢?

2R^S(G)=2Eσ[suphH1mi=1mσi1h(xi)yi];1h(x)y=1h(x)y2=Eσ[suphH1mi=1mσih(xi)yi];σ 随意变号=Eσ[suphH1mi=1mσih(xi)]=R^S(H)

同取期望有 2Rm(G)=Rm(H),于是原定理变为对于任意 hH,以至少 1δ 概率有

R(h)R^S(h)+Rm(H)+log1δ2mR(h)R^S(h)+R^S(H)+3log2δ2m

且不论 Rm(H)R^S(H)=Eσ[suphH1mi=1mσih(xi)] 又怎么计算呢?固定 σ 后等价于一个最小化经验风险的问题,往往是 computationally hard 的。接下来要做的是为它给出一个界。

3.2 Growth function

增长函数做出的进步是其不再依赖于数据分布,而是变为单纯组合的 combinatorial 形式

定义 Growth function
假设集合 H 关于样本容量 m 的函数:增长函数 growth function ΠH:NN,定义为输入空间 Xm 的任意一点被 H 的所有元素映射出的象的最大个数:

mN,ΠH(m)=max(x1,,xm)Xm|{(h(x1),,h(xm)):hH}|

(h(x1),,h(xm))dichotomy,也就是假设能最多划分出的 dichotomy 的个数。显然对于二分类问题,ΠH(m)2m

定理 Growth function generalization bound
对于映射到 {1,+1} 的函数集合 G,记 G|S={g(S):gG},其元素的 2-范数上界为 m,应用 Massart's lemma 放缩(见补充)对集合求大小从而引入了 growth function:

Rm(G)=ES[Eσ[supuG|Sσum]]ES[m2log|G|S|m]=2logΠG(m)m

从而以至少 1δ 的概率,对任意 h:X{1,+1}H,有

R(h)R^S(h)+2logΠH(m)m+log1δ2m

或者写成 Pr[|R(h)R^S(h)|>ϵ]ΠH(2m)exp(mϵ2/8)
ΠH 也不容易,接下来进一步放宽上界以求得更简单的边界

3.3 VC-dimension

依然考虑二分类。当 H 的元素能将 S 映射到所有可能的 dichotomies 时,称 SH 打散 shattered,此时 ΠH(m)=2m。据此定义 VC 维:

定义 VC-dimension
二分类。假设集合 H 的 VC 维,定义为最大地能被 H 打散的样本的容量:

VCdim(H)=max{m:ΠH(m)=2m}

当然,只要存在那么一个容量 m 的样本就行了。例如对于平面上的点,使用所有直线为假设集合时,VC 维为 3,因为只要 3 个点不共线就可以,而 4 个点形成矩形且相邻点不同的情况就是反例。证明 VC 维往往需要我们为其构造一个解,同时证明大于的情况都是不可行的。
VCdim(H)=d,现在我们可以用 Sauer's lemma 为 Growth function 给出组合形式的上界:ΠH(m)i=0dCmi
证明略。其实只要自己尝试构造一下就会发现这个上界是最紧的。我们不妨将其理解为 “m 个元素至多 d1 的方案数”,由此它也暗示了一种构造方法:对于 (x1,,xm),m>d,映射结果 {(h(x1,,h(xm)):hH)} 满足对于任意 (xk1,,xkd+1),映射结果不能全部为 1;如此自然 VC 维就不可能大于 d,而这样的方案数恰好就是上面的式子。
用这个式子,当 md 时,我们继续放缩(还放啊):

ΠH(m)i=1dCmii=1mCmi(md)di=(md)d(1+dm)m(mde)d

可见对于 Growth function generalization bound,当 H 没那么“万能”—— VCdim(H)<+ 时,ΠH(m) 会限制在多项式级别;但是 VCdim(H)=+ 时就只剩指数级上界 2m 了——大概过拟合就是过于万能的假设集合缺少上界造成的。总之,我们对于有限 VC 维,给出它的上界:

定理 VC-dimension generalization bound
假设集合 H 映射到 {1,+1},VC 维为 d。对任意 δ>0,以至少 1δ 的概率,对任意 hH 有:

R(h)R^S(h)+2dlogemdm+log1δ2m

也就是泛化界是 O(log(m/d)m/d),可见 m/d 越大越好,从而又一次验证了在经验误差基本一个水平的情况下,VC 维越小越好——假设越简单越好(Occam's razor)
另外不通过 Rademacher 复杂度也可以导出相同复杂度的上界 R(h)R^S(h)+(8dlog2emd+8log4δ)/m

3.4 Lower bounds

我们现在为泛化误差找下界,下界是因为总存在不好的分布和目标假设。分为两种情况:realizable setting 假设集合里存在期望误差为零的假设,而 non-realizable setting 不存在这种假设(比如 Ch2 提到的随机情景 stochastic scenario)。

定理 Lower bound, realizable case
假设集合 H,其 VC 维 d>1。于是,对于任意 m1任意算法 A,总存在分布 D 和目标假设 fH 使得:

PSDm[RD(hS,f)>d132m]0.01

观察式子,又是 d/m,可见 VC 维确实好用。至于 VC 维无穷大的 realizable 情况,则 PAC 学习是不可行的。
证明:
我也不知道重不重要,先抄着吧。记被 H shattered 的点为 X¯={x0,x1,,xd1},并取分布 D 只落在这 d 个点上,满足 PrD[x0]=18ϵ,PrD[xi]=8ϵ/(d1)
如此设计使得大部分样本点都落在 x0,算法对 x0 肯定不会有误差了;对于训练集里没出现过的点,由于 X¯ 被 shattered 也就是 H 里啥都有,因此对 fH 在此处的假设不如直接让算法丢硬币;剩下的不是 x0 的那些样本,我们记其集合为 S¯S,可以认为它们的标签多少被算法记一些
定义 S={S:|S|=m,|S¯|(d1)/2},从里头采样 S,并且认为损失函数 f:X¯{0,1} 等概率出现,于是计算期望误差:

Ef[RD(hS,f)]=fxX¯1hS(x)f(x)Pr[x]Pr[f]fxS¯1hS(x)f(x)Pr[x]Pr[f];算法顶多把 S¯ 的全记下来了=xS¯(f1hS(x)f(x)Pr[f])Pr[x]=12xS¯Pr[x];没见过的点就抛硬币12d128ϵd1=2ϵ

对每个 S 均成立,在 S 上取期望也成立,然后把交换期望顺序(Fubini's theorem),得到 Ef[ESS[RD(hS,f)]]2ϵ,也就是存在一个 f0 使得 ESS[RD(hS,f0)]2ϵ;同时注意一个显然的事实:RD(hS,f0)PrD[X¯/{x0}],因为后者是除了 x0 全部猜错的损失。放缩:

2ϵESS[RD(hS,f0)]=S:RD(hS,f0)ϵRD(hS,f0)Pr[RD(hS,f0)]+S:RD(hS,f0)<ϵRD(hS,f0)Pr[RD(hS,f0)]PrD[X¯/{x0}]PrSS[RD(hS,f0)ϵ];求和号内放缩,提出去+ϵPrSS[RD(hS,f0)<ϵ];使用条件放缩8ϵPrSS[RD(hS,f0)ϵ]+ϵ(1PrSS[RD(hS,f0)ϵ])

解方程,得到 PrSS[RD(hS,f0)ϵ]1/7,然后对原式 PrS[]PrSS[]Pr[S]Pr[S]/7,再对 Pr[S] 用个什么 multiplicative Chernoff bound 放缩一下,最后得证。
总之这个证明还是一如既往地信息量很大,有些像是技巧又像是暴力的东西,很是跳跃

对于 non-realizable 情况,也给出下界:

定理 Lower bound, non-realizable case
假设集合 H,其 VC 维 d>1。于是,对于任意 m1任意算法 A,总存在 X×{0,1} 上的分布 D 使得:

PSDm[RD(hS)infhHRD(h)>d320m]1/64

该式即之前提到的 agnostic PAC-learning,只不过给出的是误差下界;等价于 md320ϵ2 时很大概率误差会超过 ϵ;同时可知,当 VC 维无穷大时 agnostic PAC-learning 是不可行的。

Exercises

VC dimension of a vector space of real function
有限维向量空间(vector space,线性空间)F 的元素为映射 f:XR,且 dim(F)=r<。取假设集合 H={{x:f(x)0}:fF},证明 VCdim(H) 有限且小等于 r

思路:取 S=(x1,,xr+1),即证对任意 SH 都无法将其打散,可以试着证明所有 hH 都无法映射到某一个特定的象上

证明:对任意 S=(x1,,xr+1),取 l:FRr+1,为 l(f)=(f(x1),,f(xr+1)),显然 Rr+1 上的集合 L={l(f):fF} 也构成一个向量空间且 dim(L)r,故存在非零 αRr+1L 正交:

fF,i=1mαif(xi)=0i:αi0αif(xi)=i:αi<0αif(xi)

αi 至少有一个小于零。接下来对于 S,令 h(S)={x:f(x)0}={xi:xi in LHS},那么上面等式里左式大等于零,右式小于零,矛盾,故无法取到这个映射结果。故得证。

补充

McDiarmid 不等式
m 维独立随机变量 S=(X1,,Xm)Xm;若对于每个 i[m] 都存在一个 ci>0,使得多元函数 f:XmR 在任何时候单独以每一维取值变化时的函数值变化量不超过 ci(于是若干维变化带来的函数值变化上界等于对应维度的上界和):

|f(x1,,xi,,xm)f(x1,,xi,,xm)|ci

f(S) 的值以很大概率满足其与期望值足够接近:

Pr[f(S)E[f(S)]ϵ]exp(2ϵ2i=1mci2)Pr[f(S)E[f(S)]ϵ]exp(2ϵ2i=1mci2)

引理 Massart's lemma
有限集合 ARm,其元素的 2-范数上界为 r=maxxAx2,那么有定理

Eσ[1msupxAi=1mσixi]r2log|A|m

posted @   zrkc  阅读(634)  评论(1编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2021-08-11 【笔记】tarjan
2021-08-11 【笔记】主席树
点击右上角即可分享
微信分享提示