【笔记】机器学习基础 - Ch2. PAC Learning Framework

🤔还在慢慢熟悉这种思维方式,希望没有理解错误🙏

2.1 PAC learning model

服从某个分布 D 抽取样本 xX;称一个映射 c:XY 为概念 concept,称概念的集合 C 为概念类 concept class。考虑这个概念类 C 的“可学习性”。
现对于一个固定、未知的待学习目标概念 cC,我们有一个假设概念 h 的集合 hypothesis set H 以供选择(H,C 不一定有交 coincide)。以 i.i.d. 抽取样本 S=(x1,,xm) 同时得到标签 (c(x1),,c(xm)),据此以某种算法选择 hSH,并用泛化误差 generalization error 刻画 hS 相对 c 的差距:

定义 泛化误差 generalization error
假设概念 hH 相对目标概念 cC 的泛化误差 R(h),为在给定分布 D 以 i.i.d. 采样下两者映射结果不相等的概率(错误概率):

R(h)=PxD[h(x)c(x)]=ExD[1h(x)c(x)]

但是 D,c 都是未知的。我们考虑对 h 计算经验误差 empirical error R^S(h)

定义 经验误差 empirical error
假设概念 hH 相对目标概念 cC 的经验误差 R^S(h),为在给定的样本 S=(x1,,xm) 下两者映射结果不相等的频率:

R^S(h)=1mi=1m1h(xi)c(xi)

可以证明,经验误差 R^S(h) 当样本在分布 D 以 i.i.d. 采样下的期望,等于泛化误差 R(h)

ESDm[R^S(h)]=R(h)

回到概念类 C 的“可学习性”。
设表示 X 任一元素的计算开销是 O(n),表示 C 任一元素的计算开销是 size(c)。对于已知的 C,设计某个算法 A:从 D 中以 i.i.d. 采样带标签样本集 S,算法 A 接受 S 并返回 hS
接下来定义 PAC (Probably Approximately Correct) 学习:

定义 PAC 学习 PAC-learning
称概念集合 concept class C 是 PAC-learnable,若存在一个算法 A 和一个多项式函数 poly(,,,),使得 ϵ>0,δ>0,D,cC,只要满足 mpoly(1/ϵ,1/δ,n,size(c)),就有:

PSDm[R(hS)ϵ]1δ

即,只要样本容量 m 足够大,其喂给算法 A 得到的 hS 就能以至少 1δ 的概率、达到最多只有 ϵ 的泛化误差(错误概率),因此称为 probably approximately correct。值得一提的是我们并没有对 D 做出特别假设。此外若 n,size(c) 不需要特别讨论,比如常数,我们可以忽略之。
显然该式等价于 PSDm[R(hS)>ϵ]δ
有些时候,我们还可以用“泛化界” generalization bound 来等价地表达这种关系,若 mpoly(1/ϵ,1/δ,) 可以解得 ϵpoly(1/m,1/δ,),结合 PSDm[R(hS)>ϵ]δ 可以阐述为:
对于任意 ϵ,δ>0,以至少 1δ 的概率,会有 R(hS)poly(1/m,1/δ,)
可见我们以一个上界限制住了 hS 的泛化误差。观察该式,往往会发现当 m 变大,上界随之下降,这符合我们的认知。

例题 Leaning axis-aligned rectangles
二维平面上采样 X=R2,概念类 C 是平面上所有边平行于坐标轴的矩形,概念 c 将矩形内部的点都映射为正,其余为负,或者等价认为概念 c 就是该矩形内的点集。接下来证明 C 是 PAC-learnable 的。
记目标概念为 RC,记采样点落在 R 内的概率为 P[R]。设计算法 A 为,对于给定样本集 SRS 为包含且只包含所有正例的最小矩形,显然 RS 包含在 R 内,则泛化误差 R(RS) 即采样点落在 R 内、但是不在 RS 内的概率。固定 ϵ>0,不妨假设 P[R]>ϵ(否则 R(RS)P[R]ϵ 就没意义了)。
接下来,以 R 的四条边向内做四个子矩形 ri,i[4],且满足 P[ri]=ϵ/4。显然若 RS 与四个子矩形都有交,则 R(RS)P[iri]iP[ri]=ϵ;于是其逆否命题成立:若 R(RS)>ϵ,则 RS 至少与一个子矩形无交,用概率刻画事件关系😲:

PSDm[R[RS]>ϵ]PSDm[i=14{RSri=}];AB,AB,P(A)P(B)i=14PSDm[{RSri=}];union bound4(1ϵ/4)m;P(draw a point at least not in ri)1ϵ/44exp(mϵ/4);1xex

PSDm[R[RS]>ϵ]4exp(mϵ/4)δ,解得 m4ϵln4δ,故得证。
另外还可以用泛化界表达:结合该式和 ϵ4mln4δ,可阐述为:以至少 1δ 的概率,会有 R[RS]4mln4δ

2.2 Guarantees for finite hypothesis sets - consistent case

称假设 hS 对带标签样本 S 是一致的 consistent,若其在 S 上的经验误差为零。下文中,我们为对任意 S 总能从有限假设集合 H 中找到一致假设 hS 的情形(称之为一致情况 consistent case),提出一个一般的样本容量下界。此外,我们还假定 cH(或许有些情况下 cC,cH 也能存在一致假设,但是还不如就假定 cH)。

定理 Learning bound - finite H, consistent case
H 是映射 XY 的有限集合,若算法 A 对于任意目标概念 cH,总能根据以 i.i.d. 获得的 S 返回一个一致假设 consistent hypothesis hS:R^S(hS)=0,那就是 PAC-learnable 的:ϵ,δ>0,PSDm[R(hS)ϵ]1δ 成立,若:

m1ϵ(log|H|+log1δ)

也可以用泛化界表达:ϵ,δ>0,以至少 1δ 的概率,有:

R(hS)1m(log|H|+log1δ)

证明如下,定义 Hϵ={hH:R(h)>ϵ},则 hHϵ 为一致假设、即采样点均不出错的概率 (1ϵ)m;且事件 “Hϵ 存在一致假设” 的概率为:

P[hHϵ:R^S(h)=0]=P[hHϵ{R^S(h)=0}]hHϵP[R^S(h)=0]hHϵ(1ϵ)m|H|(1ϵ)m|H|emϵ

现在对于根据 S 学到的一致假设 hS,若有 hSHϵ,则事件 “Hϵ 存在一致假设” 成立,还是用概率刻画:P[hSHϵ]=PSDm[R(hS)>ϵ]P[hHϵ:R^S(h)=0]|H|emϵδ,解不等式得证。

例题 Conjunction of Boolean literals
直接代入定理即可。

2.3 Guarantees for finite hypothesis sets - inconsistent case

大多数情况下,对于样本集 SH 里找不到一致假设,下面就有限假设集合、不一致情况给出保证。

定理 Hoeffding's inequality
X1,,Xm 为独立随机变量,Xi[ai,bi];记 Sm=i=1mXi。对任意 ϵ>0,下述不等式成立:

P[SmE[Sm]ϵ]exp(2ϵ2/Σi=1m(biai)2)P[SmE[Sm]ϵ]exp(2ϵ2/Σi=1m(biai)2)P[|SmE[Sm]|ϵ]2exp(2ϵ2/Σi=1m(biai)2)

根据此定理,对于 h:X{0,1} 的情形,令上述 Xi=1h(xi)=c(xi)/m[0,1/m],有 Sm=R^S(h),E[Sm]=R(h),得:

推论 固定 ϵ>0,对任意假设 h:X{0,1},有:

PSDm[|R^S(h)R(h)|ϵ]2exp(2mϵ2)

令等式右边等于 δ,得到对单独一个假设的界:
推论 固定 h:X{0,1},对任意 δ>0,以至少 1δ 的概率,有:

R(h)R^S(h)+log2δ2m

应当指出,这个推论是以固定 h 为前提的(定理 “经验误差的期望等于泛化误差” 亦是如此);然而在实际应用中我们手头的 hS 是一个随 S 而变化的随机变量,当我们倒回去查看推导时,会发现对于 Sm=R^S(hS)E[Sm] 通常不等于 R(hS),因为前者依然是一个常数,后者是一个随机变量。
因此我们要做的是为整个假设集合 H 给出一个保证:

定理 Learning bound - finite H, inconsistent case
有限假设集合 H。对任意 δ>0,以至少 1δ 的概率,有:

hH,R(h)R^S(h)+log|H|+log2δ2m

证明:记 H={h1,,h|H|},有:

P[hH:|R^S(h)R(h)|>ϵ]=P[hH{|R^S(h)R(h)|>ϵ}]hH[|R^S(h)R(h)|>ϵ]2|H|exp(2mϵ2);代入推论

引入 δ 得证。

考察 m,|H|,相比一致情况为一致假设 hS 找到的泛化界 R(hS)O(log|H|m),非一致情况下为 H 里的任一假设 h 找到的泛化界(两者都以 1δ 的概率):

R(h)R^S(h)+O(log|H|m)

差不多可以看出泛化界的一般形式了,无非就是 R(h)R^S(h)+ϵϵ 被我们解出来关于 (1/m,1/δ,log|H|,) 的函数,而一致情况的经验误差为零;log|H| 可理解为表示 H 需要的比特量,对应 size(c) 概念。
对于非一致情况,m 带来的压低上界被打了个开方的折扣,也就是需要平方倍数的提升才能达到和一致情况一样的效果。另外,从该式中也可以看到一个关于 R^S(h)|H| 的 trade-off:增大假设集合的大小,可能可以减小经验误差,但是会受到后者的惩罚。对于经验误差基本没差别的情况,我们倾向于减小假设集合的大小。这可以视作 Occam's Razor principle 的一个例子。

2.4 Generalities

关于确定情景和随机情景 Deterministic versus stochastic scenarios
上文中以及大多时候我们只考虑标签是通过某个确定映射 XY 得到的,称为确定情景 deterministic scenario。但是实际情况中往往 y 也服从一个分布,称之为随机情景 stochastic scenario
形式化地说,将 D 定义在 X×Y 上,对于从 D 以 i.i.d. 抽取的样本 S=((x1,y1),,(xm,ym)),定义泛化误差为

R(h)=P(x,y)D[h(x)y]=E(x,y)D[1h(x)y]

随机情景下,我们提出 “不可知 PAC 学习”(Agnostic PAC-learning)概念(看起来它继承了上面总结的泛化界一般形式)

定义 Agnostic PAC-learning
假设集合 H;称 A 为 PAC 学习算法,若存在一个多项式函数 poly(,,,),使得任意 ϵ>0,δ>0,任意 X×Y 上的 D,只要满足 mpoly(1/ϵ,1/δ,n,size(c)),就有:

PSDm[R(hS)minhHR(h)+ϵ]1δ

贝叶斯误差和噪声 Bayes error and noise
对于确定情景,那个目标概念就可以使 R(h)=0;而对于随机情景我们用所有可能情况的最小值来定义:

定义 Bayes error
对于 X×Y 上的分布 D,称其贝叶斯误差 R 为由可测函数类 h:XY 产生的误差下界:R=infh mearsurableR(h)

一般来说对于随机情景有 R0
称满足 R(h)=R 的假设 hBayes 为贝叶斯假设或贝叶斯分类器。当然,以二分类为例,它也可以定义为:x,hBayes(x)=argmaxy{0,1}P[y|x];对应地,其错误概率、也是所有假设的最小错误概率为 min{P[0|x],P[1|x]},据此定义贝叶斯噪声:

定义 Bayes noise
对于 X×Y 上的分布 D,称其在 xX 上的贝叶斯噪声为 noise(x)=min{P[0|x],P[1|x]};而 D 上的 noise 定义为 E[noise(x)]

显然 noise=E[noise(x)]=R,这个量刻画了学习的难度。

Exercises

Two-Oracle Variant of PAC model
题解应该有不少有待斟酌的地方;其实现在也不确定有没有理解对题目,当然答案根据自己的理解也稍有改动,不保证正确。
考虑二分类问题。标准 PAC 模型认为 X 采样自分布 D 并通过某个映射 c:X{0,1}。引入其 two-oracle 变种:认为所有正例均采样自 D+,负例采样自 D;假设两者概率分别为 p,1p(至少我是这么理解的);定义对应的 PAC 算法为以至少 1δ 的概率,返回的假设 h 同时满足 PrxD+[h(x)1]ϵ,PrxD[h(x)0]ϵ。下文记 errorD(h)=PrxD[h(x)c(x)]
试证明,对于概念类 C 和假设集 HC 对于 H 在标准 PAC 模型是 efficiently PAC-learnable 的,当且仅当 C 对于 H{h0,h1} 在 two-oracle 模型是 efficiently PAC-learnable 的。其中 h0/1 表示恒映射到 0/1 的函数。

证明:
必要性,前者成立,取分布 D=pD++(1p)D,不妨假设 p1p,选取 δ 使得 Pr[errorD(h)pϵ]1δ,于是以至少 1δ 的概率,有泛化误差 errorD(h)=perrorD+(h)+(1p)errorD(h)pϵ,于是 errorD+(h)ϵ,errorD(h)ϵ 均成立;
充分性,后者成立,按题目的意思是当 m “足够大” 时:在两个分布各自抽取的样本量分别应大等于 m+,m,会以至少 1δ 的概率,有 errorD+(h)ϵ,errorD(h)ϵ,那么对于标准模型的分布 D=pD++(1p)D,有 errorD=perrorD+(h)+(1p)errorD(h)ϵ(p+1p)=ϵ,从而成立
那么这个 “足够大” 是多大,才能满足在两个分布各自抽取的样本量都足够多呢?假设 Sm 等于抽取 m 个样本时正例(概率 p)的个数,根据 Chernoff bounds 有 Pr[Sm(1α)mp]exp(mpα2/2),为了保证 Smm+,令 α=1/2,m=2m+/p,得到 Pr[Smm+]exp(m+/4) 并令其小等于 δ/2(这么取是为了对负例同理且后续相加),解得 mmin{2m+p,8ϵlog2δ}
于是当 mmin{2m+p,2mp,8ϵlog2δ} 时,Pr[{Smm+}{mSmm}]Pr[{Smm+}]+Pr[{mSmm}]=δ,即以至少 1δ 的概率使 m “足够大”,从而又以至少 1δ 的概率使得误差足够小,这么看来概率下界是 (1δ)2 吗?那好像还是差了点意思,不太懂
至于为什么题目还提供了 {h0,h1}:在题解里提到若 p<ϵ1p<ϵ 时取常函数就能使得误差小等于 ϵ,不过不懂是否有必要考虑这个...

posted @   zrkc  阅读(286)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示