[机器学习] 5. 一致收敛性 Uniform Convergency

回顾不可知 PAC 的定义

定义 一个假设类 H不可知 PAC 可学习的,如果存在函数 mH:(0,1)2N 和一个学习算法满足,对任意 ϵ,δ(0,1)X×{0,1} 上的分布 D,学习算法接收长度为 mmH(ϵ,δ) 的训练集可以给出一个假设 h,使得有至少 1δ 的概率

LD(h)minhHLD(h)+ϵ

其总是关心泛化的结果,而不在乎其过程。但一般地讲来,所谓泛化能力,是指在有限的测试集(就是上文的训练集,但此时不关注训练)上能够体现真实分布上的损失的能力。即

|LS(h)LD(h)|ϵ

定义 一个数据集 S 被称作(关于作用域 Z,假设类 H,损失函数 ,分布 Dϵ-representative 的,如果

hH,|LS(h)LD(h)|ϵ

这是看似比 PAC 更严的条件。因为其不仅仅要求了找到好的假说的能力,还要求了所有假说的泛化能力。

推论 Sϵ/2-representative 的,则

LD(hS)minhHLD(h)+ϵ

证明

LD(hS)LS(hS)+ϵ2LS(h)+ϵ2+ϵ2=LD(h)+ϵ

对于一个单一的假说 hDm(S|LS(h)LD(h)|>ϵ)0 的条件,便是采样的均值随着采样数增大高概率 ϵ-靠近分布的期望的条件,即 Measure Concentration。这一点在概统中有相当多的结论(注意 Chernoff bound 描述的是两者的比值而不是差,所以这里不用)

引理 (Hoeffding's Ineq) 令 θ1,,θm 为独立同分布随机变量,E[θi]=μ,P[aθib]=1,则对任意 ϵ>0

P[|1mi=1mθiμ|>ϵ]2exp(2mϵ2(ba)2)

于是对任意 ϵ,δ(0,1),对每一个 hH 考虑 θ 取自分布 (h×D)(即按照分布 D 生成实例,经过假说的判断后的损失的分布),则一定存在某个 mh 使得条件满足。接下来所需要的,便是考虑所有分布 (H×D) 关于由 D 生成的随机变量的一致性。即,对于某个固定的 SsuphH|LD(h)LS(h)|<ϵ。由于这里并不再假设 H 是有限的,不能套用 Union bound,这一条件并不直接满足。

定义 称假设类 H 具有一致收敛性 (Uniform Convergence property),如果存在函数 mHUC:(0,1)2N 满足,对任意 ϵ,δ(0,1)Z 上的分布 D,长度为 mmHUC(ϵ,δ) 的训练集 S 有至少 1δ 的概率是 ϵ-representative 的。

推论 假设类 H 关于函数 mHUC 具有一致收敛性,则该假设类是关于 mH(ϵ,δ)mHUC(ϵ/2,δ) 不可知 PAC 可学习的,且 ERM 策略生效。

命题 0-1 loss 下的有限假设类一致收敛的,因此是不可知 PAC 可学习的。

证明 Union bound + Hoeffding's Ineq.

θh,i=(h,xi),则

Dm({(S|x)hH,|LS(h)LD(h)|>ϵ})hHDm({(S|x)|LS(h)LD(h)|>ϵ})=hHP[|1mi=1mθh,iμ|>ϵ]2|H|exp(2mϵ2)

mlog(2|H|/δ)2ϵ2

则有 Dm({ShH,|LS(h)LD(h)|>ϵ})δ。故

mH(ϵ,δ)mHUC(ϵ/2,δ)2log(2|H|/δ)ϵ2

需要注意的是,一致收敛性是仅对 H 说的,D任意的。能这么说的底气在于以下几点

  • 当考虑一个测试集 S 时,可以只需要考虑

    ESDm[suphH|LD(h)LS(h)|]

    关于 m 收敛的条件。

根据 Markov's Ineq,

PSDm[suphH|LD(h)LS(h)|ϵ]δ

其中

ϵ=ESDm[suphH|LD(h)LS(h)|]δ

  • 我们可以由式子中 E+sup 的机制去除 LD,而转化为两组测试集的差。

定义 C={c1,,cm}X 是实例集合的一个有限子集,称假设类 HC 上的 restriction 为

ESDm[suphH|LD(h)LS(h)|]=E[suphH|(ESDmLS(h))LS(h)|]ESDm[suphHESDm|LS(h)LS(h)|]|EX|E|X|ESDm[ESDm[suphH|LS(h)LS(h)|]]suphHEX(h)EsuphHX(h)=ES,SDm[suphH1m|i=1m((h,xi)(h,xi))|]

此时,S,S 对称。于是我们可以通过交换两者进行配对,这样每一对的期望是 0,于是可以用 Hoeffding's Ineq 控制。

  • 在有限的测试集上,我们可以仅关心那些出现过的实例。更关键的是,由于是两者相减且经过配对, 具体为多少无关紧要,因此只要没有重复元素,无论基于什么分布生成的任何实例集都是平等的。

ES,SDm[suphH1m|i=1m((h,xi)(h,xi))|]=Eσ{±1}mES,SDm[suphH1m|i=1mσi((h,xi)(h,xi))|]=ES,SDmEσ{±1}m[suphH1m|i=1mσi((h,xi)(h,xi))|]Fubini=ES,SDmEσ{±1}m[suphHC1m|i=1mσi((h,xi)(h,xi))|]C={xi}{xi}

其中,HC={(h(c1),,h(cm))hH} 称为 HCX 上的 restriction。

θi=σi((h,xi)(h,xi)),若 X 为无限集,则 θ1,,θm1 的概率是 i.i.d. 的,且 Eσi{±1}[θi]=0,而如果考虑 0-1 loss,则 1θh1,根据 Hoeffding's Ineq 可知

Pσ{±1}m[|1mi=1mσi((h,xi)(h,xi))|>ρ]2exp(12mρ2)

Pσ{±1}m[maxhHC|1mi=1mσi((h,xi)(h,xi))|>ρ]2|HC|exp(12mρ2)

现在把它积成 E 的形式。

引理 若存在 a>0,be 使得对所有 t0P[|Xx|>t]2bexp(t2/a2),则 E[|Xx|]a(2+logb)

证明ti=a(i+logb)ti 单调增,因此

E[|Xx|]alogb+i=1tiP[|Xx|>ti1]alogb+2abi=1(i+logb)exp((i1+logb)2)alogb+2ab1+logbxexp((x1)2)dx=alogb+2ablogb(x+1)ex2dxalogb+4ablogbxex2dxbe=a(2+logb)

我们不关心常数,直接用 4|HC|>e 来做,则

Eσ{±1}m[maxhHC|1mi=1mσi((h,xi)(h,xi))|](2+2+log|HC|)2m4+2log|HC|m

定义 假设类 H 在实例 X 上的增长函数 τH:NN 定义为

τH(m):=max|C|=m|HC|

定理 对任意 D,δ(0,1),有至少 1δ 的概率有

|LD(h)LS(h)|4+2log(τH(2m))δm

由此,我们得到

定理 对 0-1 loss,若

limmlog(τH(m))m=0

H 是不可知 PAC 可学习的。

这是一个相当一般的结论,其不依赖于 D,只与 H 自身的性质有关。

posted @   shiys22  阅读(669)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示