回顾不可知 PAC 的定义
定义 一个假设类 H 是不可知 PAC 可学习的,如果存在函数 mH:(0,1)2→N 和一个学习算法满足,对任意 ϵ,δ∈(0,1)、X×{0,1} 上的分布 D,学习算法接收长度为 m≥mH(ϵ,δ) 的训练集可以给出一个假设 h,使得有至少 1−δ 的概率
LD(h)≤minh′∈HLD(h′)+ϵ
其总是关心泛化的结果,而不在乎其过程。但一般地讲来,所谓泛化能力,是指在有限的测试集(就是上文的训练集,但此时不关注训练)上能够体现真实分布上的损失的能力。即
|LS(h)−LD(h)|≤ϵ
定义 一个数据集 S 被称作(关于作用域 Z,假设类 H,损失函数 ℓ,分布 D)ϵ-representative 的,如果
∀h∈H,|LS(h)−LD(h)|≤ϵ
这是看似比 PAC 更严的条件。因为其不仅仅要求了找到好的假说的能力,还要求了所有假说的泛化能力。
推论 S 是 ϵ/2-representative 的,则
LD(hS)≤minh∈HLD(h)+ϵ
证明
LD(hS)≤LS(hS)+ϵ2≤LS(h)+ϵ2+ϵ2=LD(h)+ϵ□
对于一个单一的假说 h,Dm(S∣|LS(h)−LD(h)|>ϵ)→0 的条件,便是采样的均值随着采样数增大高概率 ϵ-靠近分布的期望的条件,即 Measure Concentration。这一点在概统中有相当多的结论(注意 Chernoff bound 描述的是两者的比值而不是差,所以这里不用)
引理 (Hoeffding's Ineq) 令 θ1,…,θm 为独立同分布随机变量,E[θi]=μ,P[a≤θi≤b]=1,则对任意 ϵ>0,
P[∣∣
∣∣1mm∑i=1θi−μ∣∣
∣∣>ϵ]≤2exp(−2mϵ2(b−a)2)
于是对任意 ϵ,δ∈(0,1),对每一个 h∈H 考虑 θ 取自分布 ℓ∘(h×D)(即按照分布 D 生成实例,经过假说的判断后的损失的分布),则一定存在某个 mh 使得条件满足。接下来所需要的,便是考虑所有分布 ℓ∘(H×D) 关于由 D 生成的随机变量的一致性。即,对于某个固定的 S,suph∈H|LD(h)−LS(h)|<ϵ。由于这里并不再假设 H 是有限的,不能套用 Union bound,这一条件并不直接满足。
定义 称假设类 H 具有一致收敛性 (Uniform Convergence property),如果存在函数 mUCH:(0,1)2→N 满足,对任意 ϵ,δ∈(0,1)、Z 上的分布 D,长度为 m≥mUCH(ϵ,δ) 的训练集 S 有至少 1−δ 的概率是 ϵ-representative 的。
推论 假设类 H 关于函数 mUCH 具有一致收敛性,则该假设类是关于 mH(ϵ,δ)≤mUCH(ϵ/2,δ) 不可知 PAC 可学习的,且 ERM 策略生效。
命题 0-1 loss 下的有限假设类一致收敛的,因此是不可知 PAC 可学习的。
证明 Union bound + Hoeffding's Ineq.
令 θh,i=ℓ(h,xi),则
Dm({(S|x)∣∃h∈H,|LS(h)−LD(h)|>ϵ})≤∑h∈HDm({(S|x)∣|LS(h)−LD(h)|>ϵ})=∑h∈HP[∣∣
∣∣1mm∑i=1θh,i−μ∣∣
∣∣>ϵ]≤2|H|exp(−2mϵ2)
令
m≥log(2|H|/δ)2ϵ2
则有 Dm({S∣∃h∈H,|LS(h)−LD(h)|>ϵ})≤δ。故
mH(ϵ,δ)≤mUCH(ϵ/2,δ)≤⌈2log(2|H|/δ)ϵ2⌉□
需要注意的是,一致收敛性是仅对 H 和 ℓ 说的,D 是任意的。能这么说的底气在于以下几点
根据 Markov's Ineq,
PS∼Dm[suph∈H|LD(h)−LS(h)|≥ϵ]≤δ
其中
ϵ=ES∼Dm[suph∈H|LD(h)−LS(h)|]δ
- 我们可以由式子中 E+sup 的机制去除 LD,而转化为两组测试集的差。
定义 C={c1,…,cm}⊂X 是实例集合的一个有限子集,称假设类 H 在 C 上的 restriction 为
ES∼Dm[suph∈H|LD(h)−LS(h)|]=E[suph∈H|(ES′∼DmLS′(h))−LS(h)|]≤ES∼Dm[suph∈HES′∼Dm|LS′(h)−LS(h)|]|EX|≤E|X|≤ES∼Dm[ES′∼Dm[suph∈H|LS′(h)−LS(h)|]]suph∈HEX(h)≤Esuph∈HX(h)=ES,S′∼Dm[suph∈H1m∣∣
∣∣m∑i=1(ℓ(h,x′i)−ℓ(h,xi))∣∣
∣∣]
此时,S,S′ 对称。于是我们可以通过交换两者进行配对,这样每一对的期望是 0,于是可以用 Hoeffding's Ineq 控制。
- 在有限的测试集上,我们可以仅关心那些出现过的实例。更关键的是,由于是两者相减且经过配对,ℓ 具体为多少无关紧要,因此只要没有重复元素,无论基于什么分布生成的任何实例集都是平等的。
ES,S′∼Dm[suph∈H1m∣∣
∣∣m∑i=1(ℓ(h,x′i)−ℓ(h,xi))∣∣
∣∣]=Eσ∈{±1}mES,S′∼Dm[suph∈H1m∣∣
∣∣m∑i=1σi(ℓ(h,x′i)−ℓ(h,xi))∣∣
∣∣]=ES,S′∼DmEσ∈{±1}m[suph∈H1m∣∣
∣∣m∑i=1σi(ℓ(h,x′i)−ℓ(h,xi))∣∣
∣∣]Fubini=ES,S′∼DmEσ∈{±1}m[suph∈HC1m∣∣
∣∣m∑i=1σi(ℓ(h,x′i)−ℓ(h,xi))∣∣
∣∣]C={xi}∪{x′i}
其中,HC={(h(c1),…,h(cm))∣h∈H} 称为 H 在 C⊂X 上的 restriction。
令 θi=σi(ℓ(h,x′i)−ℓ(h,xi)),若 X 为无限集,则 θ1,…,θm 有 1 的概率是 i.i.d. 的,且 Eσi∼{±1}[θi]=0,而如果考虑 0-1 loss,则 −1≤θh≤1,根据 Hoeffding's Ineq 可知
Pσ∈{±1}m[∣∣
∣∣1mm∑i=1σi(ℓ(h,x′i)−ℓ(h,xi))∣∣
∣∣>ρ]≤2exp(−12mρ2)
Pσ∈{±1}m[maxh∈HC∣∣
∣∣1mm∑i=1σi(ℓ(h,x′i)−ℓ(h,xi))∣∣
∣∣>ρ]≤2|HC|exp(−12mρ2)
现在把它积成 E 的形式。
引理 若存在 a>0,b≥e 使得对所有 t≥0 有 P[|X−x′|>t]≤2bexp(−t2/a2),则 E[|X−x′|]≤a(2+√logb)。
证明 令 ti=a(i+√logb),ti 单调增,因此
E[|X−x′|]≤a√logb+∞∑i=1tiP[|X−x′|>ti−1]≤a√logb+2ab∞∑i=1(i+√logb)exp(−(i−1+√logb)2)≤a√logb+2ab∫∞1+√logbxexp(−(x−1)2)dx=a√logb+2ab∫∞√logb(x+1)e−x2dx≤a√logb+4ab∫∞√logbxe−x2dxb≥e=a(2+√logb)□
我们不关心常数,直接用 4|HC|>e 来做,则
Eσ∈{±1}m[maxh∈HC∣∣
∣∣1mm∑i=1σi(ℓ(h,x′i)−ℓ(h,xi))∣∣
∣∣]≤(2+√2+log|HC|)√2√m≤4+2√log|HC|√m
定义 假设类 H 在实例 X 上的增长函数 τH:N→N 定义为
τH(m):=max|C|=m|HC|
定理 对任意 D,δ∈(0,1),有至少 1−δ 的概率有
|LD(h)−LS(h)|≤4+2√log(τH(2m))δ√m
由此,我们得到
定理 对 0-1 loss,若
limm→∞log(τH(m))m=0
则 H 是不可知 PAC 可学习的。
这是一个相当一般的结论,其不依赖于 D,只与 H 自身的性质有关。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)