🤔还在慢慢熟悉这种思维方式,希望没有理解错误🙏
2.1 PAC learning model
服从某个分布 D D 抽取样本 x ∈ X x ∈ X ;称一个映射 c : X → Y c : X → Y 为概念 concept ,称概念的集合 C C 为概念类 concept class 。考虑这个概念类 C C 的“可学习性”。
现对于一个固定、未知的待学习目标概念 c ∈ C c ∈ C ,我们有一个假设概念 h h 的集合 hypothesis set H H 以供选择(H , C H , C 不一定有交 coincide)。以 i.i.d. 抽取样本 S = ( x 1 , ⋯ , x m ) S = ( x 1 , ⋯ , x m ) 同时得到标签 ( c ( x 1 ) , ⋯ , c ( x m ) ) ( c ( x 1 ) , ⋯ , c ( x m ) ) ,据此以某种算法选择 h S ∈ H h S ∈ H ,并用泛化误差 generalization error 刻画 h S h S 相对 c c 的差距:
定义 泛化误差 generalization error
假设概念 h ∈ H h ∈ H 相对目标概念 c ∈ C c ∈ C 的泛化误差 R ( h ) R ( h ) ,为在给定分布 D D 以 i.i.d. 采样下两者映射结果不相等的概率(错误概率):
R ( h ) = P x ∼ D [ h ( x ) ≠ c ( x ) ] = E x ∼ D [ 1 h ( x ) ≠ c ( x ) ] R ( h ) = P x ∼ D [ h ( x ) ≠ c ( x ) ] = E x ∼ D [ 1 h ( x ) ≠ c ( x ) ]
但是 D , c D , c 都是未知的。我们考虑对 h h 计算经验误差 empirical error ˆ R S ( h ) R ^ S ( h ) :
定义 经验误差 empirical error
假设概念 h ∈ H h ∈ H 相对目标概念 c ∈ C c ∈ C 的经验误差 ˆ R S ( h ) R ^ S ( h ) ,为在给定的样本 S = ( x 1 , ⋯ , x m ) S = ( x 1 , ⋯ , x m ) 下两者映射结果不相等的频率:
ˆ R S ( h ) = 1 m m ∑ i = 1 1 h ( x i ) ≠ c ( x i ) R ^ S ( h ) = 1 m ∑ i = 1 m 1 h ( x i ) ≠ c ( x i )
可以证明,经验误差 ˆ R S ( h ) R ^ S ( h ) 当样本在分布 D D 以 i.i.d. 采样下的期望,等于泛化误差 R ( h ) R ( h ) :
E S ∼ D m [ ˆ R S ( h ) ] = R ( h ) E S ∼ D m [ R ^ S ( h ) ] = R ( h )
回到概念类 C C 的“可学习性”。
设表示 X X 任一元素的计算开销是 O ( n ) O ( n ) ,表示 C C 任一元素的计算开销是 size ( c ) size ( c ) 。对于已知的 C C ,设计某个算法 A A :从 D D 中以 i.i.d. 采样带标签样本集 S S ,算法 A A 接受 S S 并返回 h S h S 。
接下来定义 PAC (Probably Approximately Correct ) 学习:
定义 PAC 学习 PAC-learning
称概念集合 concept class C C 是 PAC-learnable,若存在一个算法 A A 和一个多项式函数 p o l y ( ⋅ , ⋅ , ⋅ , ⋅ ) p o l y ( ⋅ , ⋅ , ⋅ , ⋅ ) ,使得 ∀ ϵ > 0 , δ > 0 , D , c ∈ C ∀ ϵ > 0 , δ > 0 , D , c ∈ C ,只要满足 m ≥ p o l y ( 1 / ϵ , 1 / δ , n , size ( c ) ) m ≥ p o l y ( 1 / ϵ , 1 / δ , n , size ( c ) ) ,就有:
P S ∼ D m [ R ( h S ) ≤ ϵ ] ≥ 1 − δ P S ∼ D m [ R ( h S ) ≤ ϵ ] ≥ 1 − δ
即,只要样本容量 m m 足够大,其喂给算法 A A 得到的 h S h S 就能以至少 1 − δ 1 − δ 的概率、达到最多只有 ϵ ϵ 的泛化误差(错误概率),因此称为 probably approximately correct 。值得一提的是我们并没有对 D D 做出特别假设。此外若 n , size ( c ) n , size ( c ) 不需要特别讨论,比如常数,我们可以忽略之。
显然该式等价于 P S ∼ D m [ R ( h S ) > ϵ ] ≤ δ P S ∼ D m [ R ( h S ) > ϵ ] ≤ δ 。
有些时候,我们还可以用“泛化界” generalization bound 来等价地表达这种关系,若 m ≥ p o l y ( 1 / ϵ , 1 / δ , ⋯ ) m ≥ p o l y ( 1 / ϵ , 1 / δ , ⋯ ) 可以解得 ϵ ≥ p o l y ′ ( 1 / m , 1 / δ , ⋯ ) ϵ ≥ p o l y ′ ( 1 / m , 1 / δ , ⋯ ) ,结合 P S ∼ D m [ R ( h S ) > ϵ ] ≤ δ P S ∼ D m [ R ( h S ) > ϵ ] ≤ δ 可以阐述为:
对于任意 ϵ , δ > 0 ϵ , δ > 0 ,以至少 1 − δ 1 − δ 的概率,会有 R ( h S ) ≤ p o l y ′ ( 1 / m , 1 / δ , ⋯ ) R ( h S ) ≤ p o l y ′ ( 1 / m , 1 / δ , ⋯ )
可见我们以一个上界限制住了 h S h S 的泛化误差。观察该式,往往会发现当 m m 变大,上界随之下降,这符合我们的认知。
例题 Leaning axis-aligned rectangles
二维平面上采样 X = R 2 X = R 2 ,概念类 C C 是平面上所有边平行于坐标轴的矩形,概念 c c 将矩形内部的点都映射为正,其余为负,或者等价认为概念 c c 就是该矩形内的点集。接下来证明 C C 是 PAC-learnable 的。
记目标概念为 R ∈ C R ∈ C ,记采样点落在 R R 内的概率为 P [ R ] P [ R ] 。设计算法 A A 为,对于给定样本集 S S ,R S R S 为包含且只包含所有正例的最小矩形,显然 R S R S 包含在 R R 内,则泛化误差 R ( R S ) R ( R S ) 即采样点落在 R R 内、但是不在 R S R S 内的概率。固定 ϵ > 0 ϵ > 0 ,不妨假设 P [ R ] > ϵ P [ R ] > ϵ (否则 R ( R S ) ≤ P [ R ] ≤ ϵ R ( R S ) ≤ P [ R ] ≤ ϵ 就没意义了)。
接下来,以 R R 的四条边向内做四个子矩形 r i , i ∈ [ 4 ] r i , i ∈ [ 4 ] ,且满足 P [ r i ] = ϵ / 4 P [ r i ] = ϵ / 4 。显然若 R S R S 与四个子矩形都有交,则 R ( R S ) ≤ P [ ∪ i r i ] ≤ ∑ i P [ r i ] = ϵ R ( R S ) ≤ P [ ∪ i r i ] ≤ ∑ i P [ r i ] = ϵ ;于是其逆否命题成立:若 R ( R S ) > ϵ R ( R S ) > ϵ ,则 R S R S 至少与一个子矩形无交,用概率刻画事件关系😲:
P S ∼ D m [ R [ R S ] > ϵ ] ≤ P S ∼ D m [ 4 ⋃ i = 1 { R S ∩ r i = ∅ } ] ; A ⇒ B , A ⊆ B , P ( A ) ≤ P ( B ) ≤ 4 ∑ i = 1 P S ∼ D m [ { R S ∩ r i = ∅ } ] ; union bound ≤ 4 ( 1 − ϵ / 4 ) m ; P ( draw a point at least not in r i ) ≤ 1 − ϵ / 4 ≤ 4 exp ( − m ϵ / 4 ) ; 1 − x ≤ e − x P S ∼ D m [ R [ R S ] > ϵ ] ≤ P S ∼ D m [ ⋃ i = 1 4 { R S ∩ r i = ∅ } ] ; A ⇒ B , A ⊆ B , P ( A ) ≤ P ( B ) ≤ ∑ i = 1 4 P S ∼ D m [ { R S ∩ r i = ∅ } ] ; union bound ≤ 4 ( 1 − ϵ / 4 ) m ; P ( draw a point at least not in r i ) ≤ 1 − ϵ / 4 ≤ 4 exp ( − m ϵ / 4 ) ; 1 − x ≤ e − x
令 P S ∼ D m [ R [ R S ] > ϵ ] ≤ 4 exp ( − m ϵ / 4 ) ≤ δ P S ∼ D m [ R [ R S ] > ϵ ] ≤ 4 exp ( − m ϵ / 4 ) ≤ δ ,解得 m ≥ 4 ϵ ln 4 δ m ≥ 4 ϵ ln 4 δ ,故得证。
另外还可以用泛化界表达:结合该式和 ϵ ≥ 4 m ln 4 δ ϵ ≥ 4 m ln 4 δ ,可阐述为:以至少 1 − δ 1 − δ 的概率,会有 R [ R S ] ≤ 4 m ln 4 δ R [ R S ] ≤ 4 m ln 4 δ
2.2 Guarantees for finite hypothesis sets - consistent case
称假设 h S h S 对带标签样本 S S 是一致的 consistent ,若其在 S S 上的经验误差为零。下文中,我们为对任意 S S 总能从有限假设集合 H H 中找到一致假设 h S h S 的情形(称之为一致情况 consistent case ),提出一个一般的样本容量下界。此外,我们还假定 c ∈ H c ∈ H (或许有些情况下 ∀ c ∈ C , c ∉ H ∀ c ∈ C , c ∉ H 也能存在一致假设,但是还不如就假定 c ∈ H c ∈ H )。
定理 Learning bound - finite H H , consistent case
H H 是映射 X → Y X → Y 的有限集合,若算法 A A 对于任意目标概念 c ∈ H c ∈ H ,总能根据以 i.i.d. 获得的 S S 返回一个一致假设 consistent hypothesis h S : ˆ R S ( h S ) = 0 h S : R ^ S ( h S ) = 0 ,那就是 PAC-learnable 的:∀ ϵ , δ > 0 , P S ∼ D m [ R ( h S ) ≤ ϵ ] ≥ 1 − δ ∀ ϵ , δ > 0 , P S ∼ D m [ R ( h S ) ≤ ϵ ] ≥ 1 − δ 成立,若:
m ≥ 1 ϵ ( log | H | + log 1 δ ) m ≥ 1 ϵ ( log | H | + log 1 δ )
也可以用泛化界表达:∀ ϵ , δ > 0 ∀ ϵ , δ > 0 ,以至少 1 − δ 1 − δ 的概率,有:
R ( h S ) ≤ 1 m ( log | H | + log 1 δ ) R ( h S ) ≤ 1 m ( log | H | + log 1 δ )
证明如下,定义 H ϵ = { h ∈ H : R ( h ) > ϵ } H ϵ = { h ∈ H : R ( h ) > ϵ } ,则 h ∈ H ϵ h ∈ H ϵ 为一致假设、即采样点均不出错的概率 ≤ ( 1 − ϵ ) m ≤ ( 1 − ϵ ) m ;且事件 “H ϵ H ϵ 存在一致假设” 的概率为:
P [ ∃ h ∈ H ϵ : ˆ R S ( h ) = 0 ] = P [ ⋃ h ∈ H ϵ { ˆ R S ( h ) = 0 } ] ≤ ∑ h ∈ H ϵ P [ ˆ R S ( h ) = 0 ] ≤ ∑ h ∈ H ϵ ( 1 − ϵ ) m ≤ | H | ( 1 − ϵ ) m ≤ | H | e − m ϵ P [ ∃ h ∈ H ϵ : R ^ S ( h ) = 0 ] = P [ ⋃ h ∈ H ϵ { R ^ S ( h ) = 0 } ] ≤ ∑ h ∈ H ϵ P [ R ^ S ( h ) = 0 ] ≤ ∑ h ∈ H ϵ ( 1 − ϵ ) m ≤ | H | ( 1 − ϵ ) m ≤ | H | e − m ϵ
现在对于根据 S S 学到的一致假设 h S h S ,若有 h S ∈ H ϵ h S ∈ H ϵ ,则事件 “H ϵ H ϵ 存在一致假设” 成立,还是用概率刻画:P [ h S ∈ H ϵ ] = P S ∼ D m [ R ( h S ) > ϵ ] ≤ P [ ∃ h ∈ H ϵ : ˆ R S ( h ) = 0 ] ≤ | H | e − m ϵ ≤ δ P [ h S ∈ H ϵ ] = P S ∼ D m [ R ( h S ) > ϵ ] ≤ P [ ∃ h ∈ H ϵ : R ^ S ( h ) = 0 ] ≤ | H | e − m ϵ ≤ δ ,解不等式得证。
例题 Conjunction of Boolean literals
直接代入定理即可。
2.3 Guarantees for finite hypothesis sets - inconsistent case
大多数情况下,对于样本集 S S 从 H H 里找不到一致假设,下面就有限假设集合、不一致情况给出保证。
定理 Hoeffding's inequality
X 1 , ⋯ , X m X 1 , ⋯ , X m 为独立随机变量,X i ∈ [ a i , b i ] X i ∈ [ a i , b i ] ;记 S m = ∑ m i = 1 X i S m = ∑ i = 1 m X i 。对任意 ϵ > 0 ϵ > 0 ,下述不等式成立:
P [ S m − E [ S m ] ≥ ϵ ] ≤ exp ( − 2 ϵ 2 / Σ m i = 1 ( b i − a i ) 2 ) P [ S m − E [ S m ] ≤ − ϵ ] ≤ exp ( − 2 ϵ 2 / Σ m i = 1 ( b i − a i ) 2 ) ⟹ P [ ∣ ∣ S m − E [ S m ] ∣ ∣ ≥ ϵ ] ≤ 2 exp ( − 2 ϵ 2 / Σ m i = 1 ( b i − a i ) 2 ) P [ S m − E [ S m ] ≥ ϵ ] ≤ exp ( − 2 ϵ 2 / Σ i = 1 m ( b i − a i ) 2 ) P [ S m − E [ S m ] ≤ − ϵ ] ≤ exp ( − 2 ϵ 2 / Σ i = 1 m ( b i − a i ) 2 ) ⟹ P [ | S m − E [ S m ] | ≥ ϵ ] ≤ 2 exp ( − 2 ϵ 2 / Σ i = 1 m ( b i − a i ) 2 )
根据此定理,对于 h : X → { 0 , 1 } h : X → { 0 , 1 } 的情形,令上述 X i = 1 h ( x i ) = c ( x i ) / m ∈ [ 0 , 1 / m ] X i = 1 h ( x i ) = c ( x i ) / m ∈ [ 0 , 1 / m ] ,有 S m = ˆ R S ( h ) , E [ S m ] = R ( h ) S m = R ^ S ( h ) , E [ S m ] = R ( h ) ,得:
推论 固定 ϵ > 0 ϵ > 0 ,对任意假设 h : X → { 0 , 1 } h : X → { 0 , 1 } ,有:
P S ∼ D m [ ∣ ∣ ˆ R S ( h ) − R ( h ) ∣ ∣ ≥ ϵ ] ≤ 2 exp ( − 2 m ϵ 2 ) P S ∼ D m [ | R ^ S ( h ) − R ( h ) | ≥ ϵ ] ≤ 2 exp ( − 2 m ϵ 2 )
令等式右边等于 δ δ ,得到对单独一个假设的界:
推论 固定 h : X → { 0 , 1 } h : X → { 0 , 1 } ,对任意 δ > 0 δ > 0 ,以至少 1 − δ 1 − δ 的概率,有:
R ( h ) ≤ ˆ R S ( h ) + √ log 2 δ 2 m R ( h ) ≤ R ^ S ( h ) + log 2 δ 2 m
应当指出,这个推论是以固定 h h 为前提的(定理 “经验误差的期望等于泛化误差” 亦是如此);然而在实际应用中我们手头的 h S h S 是一个随 S S 而变化的随机变量,当我们倒回去查看推导时,会发现对于 S m = ˆ R S ( h S ) S m = R ^ S ( h S ) ,E [ S m ] E [ S m ] 通常不等于 R ( h S ) R ( h S ) ,因为前者依然是一个常数,后者是一个随机变量。
因此我们要做的是为整个假设集合 H H 给出一个保证:
定理 Learning bound - finite H H , inconsistent case
有限假设集合 H H 。对任意 δ > 0 δ > 0 ,以至少 1 − δ 1 − δ 的概率,有:
∀ h ∈ H , R ( h ) ≤ ˆ R S ( h ) + √ log | H | + log 2 δ 2 m ∀ h ∈ H , R ( h ) ≤ R ^ S ( h ) + log | H | + log 2 δ 2 m
证明:记 H = { h 1 , ⋯ , h | H | } H = { h 1 , ⋯ , h | H | } ,有:
P [ ∃ h ∈ H : ∣ ∣ ˆ R S ( h ) − R ( h ) ∣ ∣ > ϵ ] = P [ ⋃ h ∈ H { ∣ ∣ ˆ R S ( h ) − R ( h ) ∣ ∣ > ϵ } ] ≤ ∑ h ∈ H [ ∣ ∣ ˆ R S ( h ) − R ( h ) ∣ ∣ > ϵ ] ≤ 2 | H | exp ( − 2 m ϵ 2 ) ; 代 入 推 论 P [ ∃ h ∈ H : | R ^ S ( h ) − R ( h ) | > ϵ ] = P [ ⋃ h ∈ H { | R ^ S ( h ) − R ( h ) | > ϵ } ] ≤ ∑ h ∈ H [ | R ^ S ( h ) − R ( h ) | > ϵ ] ≤ 2 | H | exp ( − 2 m ϵ 2 ) ; 代入推论
引入 δ δ 得证。
考察 m , | H | m , | H | ,相比一致情况为一致假设 h S h S 找到的泛化界 R ( h S ) ≤ O ( log | H | m ) R ( h S ) ≤ O ( log | H | m ) ,非一致情况下为 H H 里的任一假设 h h 找到的泛化界(两者都以 1 − δ 1 − δ 的概率):
R ( h ) ≤ ˆ R S ( h ) + O ⎛ ⎝ √ log | H | m ⎞ ⎠ R ( h ) ≤ R ^ S ( h ) + O ( log | H | m )
差不多可以看出泛化界的一般形式了,无非就是 R ( h ) ≤ ˆ R S ( h ) + ϵ R ( h ) ≤ R ^ S ( h ) + ϵ ,ϵ ϵ 被我们解出来关于 ( 1 / m , 1 / δ , log | H | , ⋯ ) ( 1 / m , 1 / δ , log | H | , ⋯ ) 的函数,而一致情况的经验误差为零;log | H | log | H | 可理解为表示 H H 需要的比特量,对应 size ( c ) size ( c ) 概念。
对于非一致情况,m ↑ m ↑ 带来的压低上界被打了个开方的折扣,也就是需要平方倍数的提升才能达到和一致情况一样的效果。另外,从该式中也可以看到一个关于 ˆ R S ( h ) R ^ S ( h ) 和 | H | | H | 的 trade-off:增大假设集合的大小,可能可以减小经验误差,但是会受到后者的惩罚。对于经验误差基本没差别的情况,我们倾向于减小假设集合的大小。这可以视作 Occam's Razor principle 的一个例子。
2.4 Generalities
关于确定情景和随机情景 Deterministic versus stochastic scenarios
上文中以及大多时候我们只考虑标签是通过某个确定映射 X → Y X → Y 得到的,称为确定情景 deterministic scenario 。但是实际情况中往往 y y 也服从一个分布,称之为随机情景 stochastic scenario 。
形式化地说,将 D D 定义在 X × Y X × Y 上,对于从 D D 以 i.i.d. 抽取的样本 S = ( ( x 1 , y 1 ) , ⋯ , ( x m , y m ) ) S = ( ( x 1 , y 1 ) , ⋯ , ( x m , y m ) ) ,定义泛化误差为
R ( h ) = P ( x , y ) ∼ D [ h ( x ) ≠ y ] = E ( x , y ) ∼ D [ 1 h ( x ) ≠ y ] R ( h ) = P ( x , y ) ∼ D [ h ( x ) ≠ y ] = E ( x , y ) ∼ D [ 1 h ( x ) ≠ y ]
随机情景下,我们提出 “不可知 PAC 学习”(Agnostic PAC-learning)概念(看起来它继承了上面总结的泛化界一般形式)
定义 Agnostic PAC-learning
假设集合 H H ;称 A A 为 PAC 学习算法,若存在一个多项式函数 p o l y ( ⋅ , ⋅ , ⋅ , ⋅ ) p o l y ( ⋅ , ⋅ , ⋅ , ⋅ ) ,使得任意 ϵ > 0 , δ > 0 ϵ > 0 , δ > 0 ,任意 X × Y X × Y 上的 D D ,只要满足 m ≥ p o l y ( 1 / ϵ , 1 / δ , n , size ( c ) ) m ≥ p o l y ( 1 / ϵ , 1 / δ , n , size ( c ) ) ,就有:
P S ∼ D m [ R ( h S ) ≤ min h ∈ H R ( h ) + ϵ ] ≥ 1 − δ P S ∼ D m [ R ( h S ) ≤ min h ∈ H R ( h ) + ϵ ] ≥ 1 − δ
贝叶斯误差和噪声 Bayes error and noise
对于确定情景,那个目标概念就可以使 R ( h ) = 0 R ( h ) = 0 ;而对于随机情景我们用所有可能情况的最小值来定义:
定义 Bayes error
对于 X × Y X × Y 上的分布 D D ,称其贝叶斯误差 R ∗ R ∗ 为由可测函数类 h : X → Y h : X → Y 产生的误差下界:R ∗ = inf h m e a r s u r a b l e R ( h ) R ∗ = inf h m e a r s u r a b l e R ( h )
一般来说对于随机情景有 R ∗ ≠ 0 R ∗ ≠ 0
称满足 R ( h ) = R ∗ R ( h ) = R ∗ 的假设 h Bayes h Bayes 为贝叶斯假设或贝叶斯分类器。当然,以二分类为例,它也可以定义为:∀ x , h Bayes ( x ) = arg max y ∈ { 0 , 1 } P [ y | x ] ∀ x , h Bayes ( x ) = arg max y ∈ { 0 , 1 } P [ y | x ] ;对应地,其错误概率、也是所有假设的最小错误概率为 min { P [ 0 | x ] , P [ 1 | x ] } min { P [ 0 | x ] , P [ 1 | x ] } ,据此定义贝叶斯噪声:
定义 Bayes noise
对于 X × Y X × Y 上的分布 D D ,称其在 x ∈ X x ∈ X 上的贝叶斯噪声为 n o i s e ( x ) = min { P [ 0 | x ] , P [ 1 | x ] } n o i s e ( x ) = min { P [ 0 | x ] , P [ 1 | x ] } ;而 D D 上的 noise noise 定义为 E [ n o i s e ( x ) ] E [ n o i s e ( x ) ] 。
显然 noise = E [ n o i s e ( x ) ] = R ∗ noise = E [ n o i s e ( x ) ] = R ∗ ,这个量刻画了学习的难度。
Exercises
Two-Oracle Variant of PAC model
题解 应该有不少有待斟酌的地方;其实现在也不确定有没有理解对题目,当然答案根据自己的理解也稍有改动,不保证正确。
考虑二分类问题。标准 PAC 模型认为 X X 采样自分布 D D 并通过某个映射 c : X → { 0 , 1 } c : X → { 0 , 1 } 。引入其 two-oracle 变种:认为所有正例均采样自 D + D + ,负例采样自 D − D − ;假设两者概率分别为 p , 1 − p p , 1 − p (至少我是这么理解的);定义对应的 PAC 算法为以至少 1 − δ 1 − δ 的概率,返回的假设 h h 同时满足 Pr x ∼ D + [ h ( x ) ≠ 1 ] ≤ ϵ , Pr x ∼ D − [ h ( x ) ≠ 0 ] ≤ ϵ Pr x ∼ D + [ h ( x ) ≠ 1 ] ≤ ϵ , Pr x ∼ D − [ h ( x ) ≠ 0 ] ≤ ϵ 。下文记 e r r o r D ( h ) = Pr x ∼ D [ h ( x ) ≠ c ( x ) ] e r r o r D ( h ) = Pr x ∼ D [ h ( x ) ≠ c ( x ) ]
试证明,对于概念类 C C 和假设集 H H ,C C 对于 H H 在标准 PAC 模型是 efficiently PAC-learnable 的,当且仅当 C C 对于 H ∪ { h 0 , h 1 } H ∪ { h 0 , h 1 } 在 two-oracle 模型是 efficiently PAC-learnable 的。其中 h 0 / 1 h 0 / 1 表示恒映射到 0/1 的函数。
证明:
必要性,前者成立,取分布 D = p D + + ( 1 − p ) D − D = p D + + ( 1 − p ) D − ,不妨假设 p ≤ 1 − p p ≤ 1 − p ,选取 δ δ 使得 Pr [ e r r o r D ( h ) ≤ p ϵ ] ≥ 1 − δ Pr [ e r r o r D ( h ) ≤ p ϵ ] ≥ 1 − δ ,于是以至少 1 − δ 1 − δ 的概率,有泛化误差 e r r o r D ( h ) = p ⋅ e r r o r D + ( h ) + ( 1 − p ) ⋅ e r r o r D − ( h ) ≤ p ϵ e r r o r D ( h ) = p ⋅ e r r o r D + ( h ) + ( 1 − p ) ⋅ e r r o r D − ( h ) ≤ p ϵ ,于是 e r r o r D + ( h ) ≤ ϵ , e r r o r D − ( h ) ≤ ϵ e r r o r D + ( h ) ≤ ϵ , e r r o r D − ( h ) ≤ ϵ 均成立;
充分性,后者成立,按题目的意思是当 m m “足够大” 时:在两个分布各自抽取的样本量分别应大等于 m + , m − m + , m − ,会以至少 1 − δ 1 − δ 的概率,有 e r r o r D + ( h ) ≤ ϵ , e r r o r D − ( h ) ≤ ϵ e r r o r D + ( h ) ≤ ϵ , e r r o r D − ( h ) ≤ ϵ ,那么对于标准模型的分布 D = p D + + ( 1 − p ) D − D = p D + + ( 1 − p ) D − ,有 e r r o r D = p ⋅ e r r o r D + ( h ) + ( 1 − p ) ⋅ e r r o r D − ( h ) ≤ ϵ ( p + 1 − p ) = ϵ e r r o r D = p ⋅ e r r o r D + ( h ) + ( 1 − p ) ⋅ e r r o r D − ( h ) ≤ ϵ ( p + 1 − p ) = ϵ ,从而成立
那么这个 “足够大” 是多大,才能满足在两个分布各自抽取的样本量都足够多呢?假设 S m S m 等于抽取 m m 个样本时正例(概率 p p )的个数,根据 Chernoff bounds 有 Pr [ S m ≤ ( 1 − α ) m p ] ≤ exp ( − m p α 2 / 2 ) Pr [ S m ≤ ( 1 − α ) m p ] ≤ exp ( − m p α 2 / 2 ) ,为了保证 S m ≥ m + S m ≥ m + ,令 α = 1 / 2 , m = 2 m + / p α = 1 / 2 , m = 2 m + / p ,得到 Pr [ S m ≤ m + ] ≤ exp ( − m + / 4 ) Pr [ S m ≤ m + ] ≤ exp ( − m + / 4 ) 并令其小等于 δ / 2 δ / 2 (这么取是为了对负例同理且后续相加),解得 m ≥ min { 2 m + p , 8 ϵ log 2 δ } m ≥ min { 2 m + p , 8 ϵ log 2 δ }
于是当 m ≥ min { 2 m + p , 2 m − p , 8 ϵ log 2 δ } m ≥ min { 2 m + p , 2 m − p , 8 ϵ log 2 δ } 时,Pr [ { S m ≤ m + } ∨ { m − S m ≤ m − } ] ≤ Pr [ { S m ≤ m + } ] + Pr [ { m − S m ≤ m − } ] = δ Pr [ { S m ≤ m + } ∨ { m − S m ≤ m − } ] ≤ Pr [ { S m ≤ m + } ] + Pr [ { m − S m ≤ m − } ] = δ ,即以至少 1 − δ 1 − δ 的概率使 m m “足够大”,从而又以至少 1 − δ 1 − δ 的概率使得误差足够小,这么看来概率下界是 ( 1 − δ ) 2 ( 1 − δ ) 2 吗?那好像还是差了点意思,不太懂
至于为什么题目还提供了 { h 0 , h 1 } { h 0 , h 1 } :在题解里提到若 p < ϵ p < ϵ 或 1 − p < ϵ 1 − p < ϵ 时取常函数就能使得误差小等于 ϵ ϵ ,不过不懂是否有必要考虑这个...
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)