🥰 | 😱
3.1 Rademacher Complexity
现在考虑无限集合 H H ,并给出几个 guarantee
损失函数为映射 L : Y × Y → R L : Y × Y → R ;样本 ( x , y ) ( x , y ) 通过某个假设 h ∈ H h ∈ H 再通过某个损失函数,可以视作一个从 Z = X × Y Z = X × Y 到 R R 的映射 g g ,其集合 G G 用以表示上述 “基于 H H 的损失函数集合”:G = { g : ( x , y ) ↦ L ( h ( x ) , y ) : h ∈ H } = { g : Z → R } G = { g : ( x , y ) ↦ L ( h ( x ) , y ) : h ∈ H } = { g : Z → R }
Rademacher Complexity 通过刻画函数集合 “拟合噪声的能力”,进而刻画其丰富程度(captures the richness of a family of functions by measuring the degree to which a hypothesis set can fit random noise)
定义 Empirical Rademacher complexity
函数集合 G = { g : Z → [ a , b ] } G = { g : Z → [ a , b ] } ;样本 S = ( z 1 , ⋯ , z m ) ∈ Z m S = ( z 1 , ⋯ , z m ) ∈ Z m ,定义 G G 就关于 S S 的 “经验 Rademacher 复杂度” 为:
ˆ R S ( G ) = E σ [ sup g ∈ G 1 m m ∑ i = 1 σ i g ( z i ) ] = E σ [ sup g ∈ G σ ⋅ g S m ] R ^ S ( G ) = E σ [ sup g ∈ G 1 m ∑ i = 1 m σ i g ( z i ) ] = E σ [ sup g ∈ G σ ⋅ g S m ]
其中 “噪声” σ = ( σ 1 , ⋯ , σ m ) ′ σ = ( σ 1 , ⋯ , σ m ) ′ ,为 m m 个独立服从 { − 1 , + 1 } { − 1 , + 1 } 平均分布的变量,也称为 Rademacher 变量(后面证明里会提到这个谜之变量怎么出现的);我们用 g g 对样本 S S 的映射结果 g S g S 作为拟合噪声,并用点积刻画拟合程度(既然映射结果是有界的,那么这么理解还是有道理的)。
可见 ˆ R S ( G ) R ^ S ( G ) 表示 G G 中以采样 S S “尽可能拟合”(通过 g g 映射并取上界)各个噪声的平均能力(取期望值),从而反映 G G 的丰富程度。
进一步地,定义 G G 的 “Rademacher 复杂度” 为:
定义 Rademacher complexity
S ∼ D m S ∼ D m ,对于任意正整数 m m ,G G 的 Rademacher complexity 为其抽取 m m 个样本得到经验 Rademacher 复杂度的期望值,也就是 “期望以随机采样” 拟合各个噪声的平均能力:
R m ( G ) = E S ∼ D m [ ˆ R S ( G ) ] R m ( G ) = E S ∼ D m [ R ^ S ( G ) ]
接下来就损失函数的期望,给出 generalization bound:
定理
函数集合 G = { g : Z → [ 0 , 1 ] } G = { g : Z → [ 0 , 1 ] } ;以 i.i.d. 抽取 S = ( z 1 , ⋯ , z m ) S = ( z 1 , ⋯ , z m ) ,对于任意 δ > 0 δ > 0 ,以至少 1 − δ 1 − δ 的概率,对任意 g ∈ G g ∈ G 都有其期望值 E [ g ] E [ g ] :
E z ∼ D [ g ( z ) ] ≤ 1 m m ∑ i = 1 g ( z i ) + 2 R m ( G ) + √ log 1 δ 2 m (1) (1) E z ∼ D [ g ( z ) ] ≤ 1 m ∑ i = 1 m g ( z i ) + 2 R m ( G ) + log 1 δ 2 m
E z ∼ D [ g ( z ) ] ≤ 1 m m ∑ i = 1 g ( z i ) + 2 ˆ R S ( G ) + 3 √ log 2 δ 2 m (2) (2) E z ∼ D [ g ( z ) ] ≤ 1 m ∑ i = 1 m g ( z i ) + 2 R ^ S ( G ) + 3 log 2 δ 2 m
也就是说,以很大的概率,G G 里任意 一个损失函数 g g 的期望值 E [ g ] E [ g ] ,通过采样,都被采样试探出的平均值 + 一个刻画 G G 多样性的值(或者 G G 单就在样本 S S 上体现的多样性)+ 一个负相关于采样数量的值给上限住了。单个函数为什么会和总体多样性有关?感性理解这是 “任意” 带来的代价。
证明:
对于 ( 1 ) ( 1 ) 式,将 g g 关于 S S 的经验平均值记为 ˆ E S [ g ] = 1 m ∑ m i = 1 g ( z i ) E ^ S [ g ] = 1 m ∑ i = 1 m g ( z i ) ,并移到左边:E [ g ] − ˆ E S [ g ] E [ g ] − E ^ S [ g ] ;定理对任意 g g 的表述,等价刻画成左式看作关于 S S 的函数并在 G G 取上界 Φ ( S ) = sup g ∈ G ( E [ g ] − ˆ E S [ g ] ) Φ ( S ) = sup g ∈ G ( E [ g ] − E ^ S [ g ] ) ,然后考虑对其放缩
考虑 McDiarmid 不等式(见补充)用在 Φ ( S ) Φ ( S ) 上:对于仅有一个点改变的 S , S ′ S , S ′ ,由于上界的差不超过差的上界,有 Φ ( S ′ ) − Φ ( S ) ≤ sup g ∈ G ( ˆ E S [ g ] − ˆ E S ′ [ g ] ) ≤ 1 / m Φ ( S ′ ) − Φ ( S ) ≤ sup g ∈ G ( E ^ S [ g ] − E ^ S ′ [ g ] ) ≤ 1 / m ,于是应用不等式,以至少 1 − δ / 2 1 − δ / 2 的概率,有 Φ ( S ) ≤ E S [ Φ ( S ) ] + √ log ( 2 / δ ) 2 m Φ ( S ) ≤ E S [ Φ ( S ) ] + log ( 2 / δ ) 2 m ,接下来考虑这个期望值:
E S [ Φ ( S ) ] = E S [ sup g ∈ G ( E [ g ] − ˆ E S ( g ) ) ] = E S [ sup g ∈ G E S ′ [ ˆ E S ′ ( g ) − ˆ E S ( g ) ] ] ; double sample trick 从 而 统 一 形 式 ≤ E S , S ′ [ sup g ∈ G ( ˆ E S ′ ( g ) − ˆ E S ( g ) ) ] ; sup E [ X ] ≤ E [ sup X ] = E S , S ′ [ sup g ∈ G ( 1 m m ∑ i = 1 ( g ( z ′ i ) − g ( z i ) ) ) ] ; 接 下 来 引 入 Rademacher 变 量 ! = E σ , S , S ′ [ sup g ∈ G ( 1 m m ∑ i = 1 σ i ( g ( z ′ i ) − g ( z i ) ) ) ] ; S , S ′ 对 称 , 任 意 交 换 z , z ′ ≤ 2 ⋅ E σ , S [ sup g ∈ G ( 1 m m ∑ i = 1 σ i g ( z ′ i ) ) ] = 2 R m ( G ) ; sup ( A + B ) ≤ sup A + sup B E S [ Φ ( S ) ] = E S [ sup g ∈ G ( E [ g ] − E ^ S ( g ) ) ] = E S [ sup g ∈ G E S ′ [ E ^ S ′ ( g ) − E ^ S ( g ) ] ] ; double sample trick 从而统一形式 ≤ E S , S ′ [ sup g ∈ G ( E ^ S ′ ( g ) − E ^ S ( g ) ) ] ; sup E [ X ] ≤ E [ sup X ] = E S , S ′ [ sup g ∈ G ( 1 m ∑ i = 1 m ( g ( z i ′ ) − g ( z i ) ) ) ] ; 接下来引入 Rademacher 变量! = E σ , S , S ′ [ sup g ∈ G ( 1 m ∑ i = 1 m σ i ( g ( z i ′ ) − g ( z i ) ) ) ] ; S , S ′ 对称,任意交换 z , z ′ ≤ 2 ⋅ E σ , S [ sup g ∈ G ( 1 m ∑ i = 1 m σ i g ( z i ′ ) ) ] = 2 R m ( G ) ; sup ( A + B ) ≤ sup A + sup B
注意证明里自从引入了谜之 Rademacher 变量,我们将对称的 S , S ′ S , S ′ 分开后可以摆脱正负号限制(随意变号),真是神奇的设计
从而 ( 1 ) ( 1 ) 式以至少 1 − δ 1 − δ 概率成立;对于 ( 2 ) ( 2 ) 式,只需要在 ( 1 ) ( 1 ) 式的基础上,注意到 ˆ R S ( G ) R ^ S ( G ) 在改变一个样本点时最多改变 1 / m 1 / m (注意 g g 只映射到 [ 0 , 1 ] [ 0 , 1 ] )且 E S ( ˆ R S ( G ) ) = R m ( G ) E S ( R ^ S ( G ) ) = R m ( G ) ,故再次使用 McDiarmid 不等式,以至少 1 − δ / 2 1 − δ / 2 概率有 R m ( G ) ≤ ˆ R S ( G ) + √ log ( 2 / δ ) 2 m R m ( G ) ≤ R ^ S ( G ) + log ( 2 / δ ) 2 m 然后用 union bound 简单相加概率,即可证得 ( 2 ) ( 2 ) 式。
二分类:泛化误差的界
本文后面的内容中,我们基本都对二分类进行讨论
H = { h : X → Y = { − 1 , + 1 } } H = { h : X → Y = { − 1 , + 1 } } ,G = { ( x , y ) ↦ 1 h ( x ) ≠ y : h ∈ H } G = { ( x , y ) ↦ 1 h ( x ) ≠ y : h ∈ H } ,记 S = ( x 1 , ⋯ , x m ) , S ′ = ( ( x 1 , y 1 ) , ⋯ , ( x m , y m ) ) S = ( x 1 , ⋯ , x m ) , S ′ = ( ( x 1 , y 1 ) , ⋯ , ( x m , y m ) )
我们以 zero-one loss 1 h ( x ) ≠ y 1 h ( x ) ≠ y 固定住 g g ,从而使得基于 H H 的 G G 变成只是 H H 和固定映射的复合,然后回顾一下之前提到的概念:
E [ g ] = E ( x , y ) [ 1 h ( x ) ≠ y ] = R ( h ) E [ g ] = E ( x , y ) [ 1 h ( x ) ≠ y ] = R ( h ) 即泛化误差;ˆ E S [ g ] = 1 m ∑ m i = 1 1 h ( x i ) ≠ y i = ˆ R S ( h ) E ^ S [ g ] = 1 m ∑ i = 1 m 1 h ( x i ) ≠ y i = R ^ S ( h ) 即经验误差;那么 ˆ R S ′ ( G ) R ^ S ′ ( G ) 又变成什么了呢?
2 ˆ R S ′ ( G ) = 2 E σ [ sup h ∈ H 1 m m ∑ i = 1 σ i 1 h ( x i ) ≠ y i ] ; 1 h ( x ) ≠ y = 1 − h ( x ) y 2 = E σ [ sup h ∈ H 1 m m ∑ i = 1 − σ i h ( x i ) y i ] ; σ 随 意 变 号 = E σ [ sup h ∈ H 1 m m ∑ i = 1 σ i h ( x i ) ] = ˆ R S ( H ) 2 R ^ S ′ ( G ) = 2 E σ [ sup h ∈ H 1 m ∑ i = 1 m σ i 1 h ( x i ) ≠ y i ] ; 1 h ( x ) ≠ y = 1 − h ( x ) y 2 = E σ [ sup h ∈ H 1 m ∑ i = 1 m − σ i h ( x i ) y i ] ; σ 随意变号 = E σ [ sup h ∈ H 1 m ∑ i = 1 m σ i h ( x i ) ] = R ^ S ( H )
同取期望有 2 R m ( G ) = R m ( H ) 2 R m ( G ) = R m ( H ) ,于是原定理变为对于任意 h ∈ H h ∈ H ,以至少 1 − δ 1 − δ 概率有
R ( h ) ≤ ˆ R S ( h ) + R m ( H ) + √ log 1 δ 2 m R ( h ) ≤ ˆ R S ( h ) + ˆ R S ( H ) + 3 √ log 2 δ 2 m R ( h ) ≤ R ^ S ( h ) + R m ( H ) + log 1 δ 2 m R ( h ) ≤ R ^ S ( h ) + R ^ S ( H ) + 3 log 2 δ 2 m
且不论 R m ( H ) R m ( H ) ,ˆ R S ( H ) = E σ [ sup h ∈ H 1 m ∑ m i = 1 σ i h ( x i ) ] R ^ S ( H ) = E σ [ sup h ∈ H 1 m ∑ i = 1 m σ i h ( x i ) ] 又怎么计算呢?固定 σ σ 后等价于一个最小化经验风险的问题,往往是 computationally hard 的。接下来要做的是为它给出一个界。
3.2 Growth function
增长函数做出的进步是其不再依赖于数据分布,而是变为单纯组合的 combinatorial 形式
定义 Growth function
假设集合 H H 关于样本容量 m m 的函数:增长函数 growth function Π H : N → N Π H : N → N ,定义为输入空间 X m X m 的任意一点被 H H 的所有元素映射出的象的最大个数:
∀ m ∈ N , Π H ( m ) = max ( x 1 , ⋯ , x m ) ∈ X m ∣ ∣ { ( h ( x 1 ) , ⋯ , h ( x m ) ) : h ∈ H } ∣ ∣ ∀ m ∈ N , Π H ( m ) = max ( x 1 , ⋯ , x m ) ∈ X m | { ( h ( x 1 ) , ⋯ , h ( x m ) ) : h ∈ H } |
称 ( h ( x 1 ) , ⋯ , h ( x m ) ) ( h ( x 1 ) , ⋯ , h ( x m ) ) 为 dichotomy ,也就是假设能最多划分出的 dichotomy 的个数。显然对于二分类问题,Π H ( m ) ≤ 2 m Π H ( m ) ≤ 2 m
定理 Growth function generalization bound
对于映射到 { − 1 , + 1 } { − 1 , + 1 } 的函数集合 G G ,记 G | S = { g ( S ) : g ∈ G } G | S = { g ( S ) : g ∈ G } ,其元素的 2-范数上界为 √ m m ,应用 Massart's lemma 放缩(见补充)对集合求大小从而引入了 growth function:
R m ( G ) = E S [ E σ [ sup u ∈ G | S σ ⋅ u m ] ] ≤ E S ⎡ ⎢
⎢ ⎣ √ m √ 2 log | G | S | m ⎤ ⎥
⎥ ⎦ = √ 2 log Π G ( m ) m R m ( G ) = E S [ E σ [ sup u ∈ G | S σ ⋅ u m ] ] ≤ E S [ m 2 log | G | S | m ] = 2 log Π G ( m ) m
从而以至少 1 − δ 1 − δ 的概率,对任意 h : X → { − 1 , + 1 } ∈ H h : X → { − 1 , + 1 } ∈ H ,有
R ( h ) ≤ ˆ R S ( h ) + √ 2 log Π H ( m ) m + √ log 1 δ 2 m R ( h ) ≤ R ^ S ( h ) + 2 log Π H ( m ) m + log 1 δ 2 m
或者写成 Pr [ | R ( h ) − ˆ R S ( h ) | > ϵ ] ≤ Π H ( 2 m ) exp ( − m ϵ 2 / 8 ) Pr [ | R ( h ) − R ^ S ( h ) | > ϵ ] ≤ Π H ( 2 m ) exp ( − m ϵ 2 / 8 )
求 Π H Π H 也不容易,接下来进一步放宽上界以求得更简单的边界
3.3 VC-dimension
依然考虑二分类。当 H H 的元素能将 S S 映射到所有可能的 dichotomies 时,称 S S 被 H H 打散 shattered,此时 Π H ( m ) = 2 m Π H ( m ) = 2 m 。据此定义 VC 维:
定义 VC-dimension
二分类。假设集合 H H 的 VC 维,定义为最大地能被 H H 打散的样本的容量:
VCdim ( H ) = max { m : Π H ( m ) = 2 m } VCdim ( H ) = max { m : Π H ( m ) = 2 m }
当然,只要存在那么一个容量 m m 的样本就行了。例如对于平面上的点,使用所有直线为假设集合时,VC 维为 3,因为只要 3 个点不共线就可以,而 4 个点形成矩形且相邻点不同的情况就是反例。证明 VC 维往往需要我们为其构造一个解,同时证明大于的情况都是不可行的。
记 VCdim ( H ) = d VCdim ( H ) = d ,现在我们可以用 Sauer's lemma 为 Growth function 给出组合形式的上界:Π H ( m ) ≤ ∑ d i = 0 C i m Π H ( m ) ≤ ∑ i = 0 d C m i
证明略。其实只要自己尝试构造一下就会发现这个上界是最紧的。我们不妨将其理解为 “m m 个元素至多 d d 个 1 1 的方案数”,由此它也暗示了一种构造方法:对于 ( x 1 , ⋯ , x m ) , m > d ( x 1 , ⋯ , x m ) , m > d ,映射结果 { ( h ( x 1 , ⋯ , h ( x m ) ) : h ∈ H ) } { ( h ( x 1 , ⋯ , h ( x m ) ) : h ∈ H ) } 满足对于任意 ( x k 1 , ⋯ , x k d + 1 ) ( x k 1 , ⋯ , x k d + 1 ) ,映射结果不能全部为 1 1 ;如此自然 VC 维就不可能大于 d d ,而这样的方案数恰好就是上面的式子。
用这个式子,当 m ≥ d m ≥ d 时,我们继续放缩(还放啊):
Π H ( m ) ≤ d ∑ i = 1 C i m ≤ m ∑ i = 1 C i m ( m d ) d − i = ( m d ) d ( 1 + d m ) m ≤ ( m d e ) d Π H ( m ) ≤ ∑ i = 1 d C m i ≤ ∑ i = 1 m C m i ( m d ) d − i = ( m d ) d ( 1 + d m ) m ≤ ( m d e ) d
可见对于 Growth function generalization bound,当 H H 没那么“万能”—— VCdim ( H ) < + ∞ VCdim ( H ) < + ∞ 时,Π H ( m ) Π H ( m ) 会限制在多项式级别;但是 VCdim ( H ) = + ∞ VCdim ( H ) = + ∞ 时就只剩指数级上界 2 m 2 m 了——大概过拟合就是过于万能的假设集合缺少上界造成的。总之,我们对于有限 VC 维,给出它的上界:
定理 VC-dimension generalization bound
假设集合 H H 映射到 { − 1 , + 1 } { − 1 , + 1 } ,VC 维为 d d 。对任意 δ > 0 δ > 0 ,以至少 1 − δ 1 − δ 的概率,对任意 h ∈ H h ∈ H 有:
R ( h ) ≤ ˆ R S ( h ) + √ 2 d log e m d m + √ log 1 δ 2 m R ( h ) ≤ R ^ S ( h ) + 2 d log e m d m + log 1 δ 2 m
也就是泛化界是 O ( √ log ( m / d ) m / d ) O ( log ( m / d ) m / d ) ,可见 m / d m / d 越大越好,从而又一次验证了在经验误差基本一个水平的情况下,VC 维越小越好——假设越简单越好(Occam's razor)
另外不通过 Rademacher 复杂度也可以导出相同复杂度的上界 R ( h ) ≤ ˆ R S ( h ) + √ ( 8 d log 2 e m d + 8 log 4 δ ) / m R ( h ) ≤ R ^ S ( h ) + ( 8 d log 2 e m d + 8 log 4 δ ) / m
3.4 Lower bounds
我们现在为泛化误差找下界,下界是因为总存在不好的分布和目标假设。分为两种情况:realizable setting 假设集合里存在期望误差为零的假设,而 non-realizable setting 不存在这种假设(比如 Ch2 提到的随机情景 stochastic scenario)。
定理 Lower bound, realizable case
假设集合 H H ,其 VC 维 d > 1 d > 1 。于是,对于任意 m ≥ 1 m ≥ 1 和任意 算法 A A ,总存在分布 D D 和目标假设 f ∈ H f ∈ H 使得:
P S ∼ D m [ R D ( h S , f ) > d − 1 32 m ] ≥ 0.01 P S ∼ D m [ R D ( h S , f ) > d − 1 32 m ] ≥ 0.01
观察式子,又是 d / m d / m ,可见 VC 维确实好用。至于 VC 维无穷大的 realizable 情况,则 PAC 学习是不可行的。
证明:
我也不知道重不重要,先抄着吧。记被 H H shattered 的点为 ¯ X = { x 0 , x 1 , ⋯ , x d − 1 } X ¯ = { x 0 , x 1 , ⋯ , x d − 1 } ,并取分布 D D 只落在这 d d 个点上,满足 Pr D [ x 0 ] = 1 − 8 ϵ , Pr D [ x i ] = 8 ϵ / ( d − 1 ) Pr D [ x 0 ] = 1 − 8 ϵ , Pr D [ x i ] = 8 ϵ / ( d − 1 )
如此设计使得大部分样本点都落在 x 0 x 0 ,算法对 x 0 x 0 肯定不会有误差了;对于训练集里没出现过的点,由于 ¯ X X ¯ 被 shattered 也就是 H H 里啥都有,因此对 f ∈ H f ∈ H 在此处的假设不如直接让算法丢硬币;剩下的不是 x 0 x 0 的那些样本,我们记其集合为 ¯ S ⊆ S S ¯ ⊆ S ,可以认为它们的标签多少被算法记一些
定义 S = { S : | S | = m , | ¯ S | ≤ ( d − 1 ) / 2 } S = { S : | S | = m , | S ¯ | ≤ ( d − 1 ) / 2 } ,从里头采样 S S ,并且认为损失函数 f : ¯ X → { 0 , 1 } f : X ¯ → { 0 , 1 } 等概率出现,于是计算期望误差:
E f [ R D ( h S , f ) ] = ∑ f ∑ x ∈ ¯ X 1 h S ( x ) ≠ f ( x ) Pr [ x ] Pr [ f ] ≥ ∑ f ∑ x ∉ ¯ S 1 h S ( x ) ≠ f ( x ) Pr [ x ] Pr [ f ] ; 算 法 顶 多 把 ¯ S 的 全 记 下 来 了 = ∑ x ∉ ¯ S ⎛ ⎝ ∑ f 1 h S ( x ) ≠ f ( x ) Pr [ f ] ⎞ ⎠ Pr [ x ] = 1 2 ∑ x ∉ ¯ S Pr [ x ] ; 没 见 过 的 点 就 抛 硬 币 ≥ 1 2 d − 1 2 8 ϵ d − 1 = 2 ϵ E f [ R D ( h S , f ) ] = ∑ f ∑ x ∈ X ¯ 1 h S ( x ) ≠ f ( x ) Pr [ x ] Pr [ f ] ≥ ∑ f ∑ x ∉ S ¯ 1 h S ( x ) ≠ f ( x ) Pr [ x ] Pr [ f ] ; 算法顶多把 S ¯ 的全记下来了 = ∑ x ∉ S ¯ ( ∑ f 1 h S ( x ) ≠ f ( x ) Pr [ f ] ) Pr [ x ] = 1 2 ∑ x ∉ S ¯ Pr [ x ] ; 没见过的点就抛硬币 ≥ 1 2 d − 1 2 8 ϵ d − 1 = 2 ϵ
对每个 S S 均成立,在 S S 上取期望也成立,然后把交换期望顺序(Fubini's theorem),得到 E f [ E S ∈ S [ R D ( h S , f ) ] ] ≥ 2 ϵ E f [ E S ∈ S [ R D ( h S , f ) ] ] ≥ 2 ϵ ,也就是存在一个 f 0 f 0 使得 E S ∈ S [ R D ( h S , f 0 ) ] ≥ 2 ϵ E S ∈ S [ R D ( h S , f 0 ) ] ≥ 2 ϵ ;同时注意一个显然的事实:R D ( h S , f 0 ) ≤ Pr D [ ¯ X / { x 0 } ] R D ( h S , f 0 ) ≤ Pr D [ X ¯ / { x 0 } ] ,因为后者是除了 x 0 x 0 全部猜错的损失。放缩:
2 ϵ ≤ E S ∈ S [ R D ( h S , f 0 ) ] = ∑ S : R D ( h S , f 0 ) ≥ ϵ R D ( h S , f 0 ) Pr [ R D ( h S , f 0 ) ] + ∑ S : R D ( h S , f 0 ) < ϵ R D ( h S , f 0 ) Pr [ R D ( h S , f 0 ) ] ≤ Pr D [ ¯ X / { x 0 } ] Pr S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] ; 求 和 号 内 放 缩 , 提 出 去 + ϵ Pr S ∈ S [ R D ( h S , f 0 ) < ϵ ] ; 使 用 条 件 放 缩 ≤ 8 ϵ Pr S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] + ϵ ( 1 − Pr S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] ) 2 ϵ ≤ E S ∈ S [ R D ( h S , f 0 ) ] = ∑ S : R D ( h S , f 0 ) ≥ ϵ R D ( h S , f 0 ) Pr [ R D ( h S , f 0 ) ] + ∑ S : R D ( h S , f 0 ) < ϵ R D ( h S , f 0 ) Pr [ R D ( h S , f 0 ) ] ≤ Pr D [ X ¯ / { x 0 } ] Pr S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] ; 求和号内放缩,提出去 + ϵ Pr S ∈ S [ R D ( h S , f 0 ) < ϵ ] ; 使用条件放缩 ≤ 8 ϵ Pr S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] + ϵ ( 1 − Pr S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] )
解方程,得到 Pr S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] ≥ 1 / 7 Pr S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] ≥ 1 / 7 ,然后对原式 Pr S [ ⋅ ] ≥ Pr S ∈ S [ ⋅ ] Pr [ S ] ≥ Pr [ S ] / 7 Pr S [ ⋅ ] ≥ Pr S ∈ S [ ⋅ ] Pr [ S ] ≥ Pr [ S ] / 7 ,再对 Pr [ S ] Pr [ S ] 用个什么 multiplicative Chernoff bound 放缩一下,最后得证。
总之这个证明还是一如既往地信息量很大,有些像是技巧又像是暴力的东西,很是跳跃
对于 non-realizable 情况,也给出下界:
定理 Lower bound, non-realizable case
假设集合 H H ,其 VC 维 d > 1 d > 1 。于是,对于任意 m ≥ 1 m ≥ 1 和任意 算法 A A ,总存在 X × { 0 , 1 } X × { 0 , 1 } 上的分布 D D 使得:
P S ∼ D m [ R D ( h S ) − inf h ∈ H R D ( h ) > √ d 320 m ] ≥ 1 / 64 P S ∼ D m [ R D ( h S ) − inf h ∈ H R D ( h ) > d 320 m ] ≥ 1 / 64
该式即之前提到的 agnostic PAC-learning,只不过给出的是误差下界;等价于 m ≥ d 320 ϵ 2 m ≥ d 320 ϵ 2 时很大概率误差会超过 ϵ ϵ ;同时可知,当 VC 维无穷大时 agnostic PAC-learning 是不可行的。
Exercises
VC dimension of a vector space of real function
有限维向量空间(vector space,线性空间)F F 的元素为映射 f : X → R f : X → R ,且 dim ( F ) = r < ∞ dim ( F ) = r < ∞ 。取假设集合 H = { { x : f ( x ) ≥ 0 } : f ∈ F } H = { { x : f ( x ) ≥ 0 } : f ∈ F } ,证明 VCdim ( H ) VCdim ( H ) 有限且小等于 r r
思路:取 S = ( x 1 , ⋯ , x r + 1 ) S = ( x 1 , ⋯ , x r + 1 ) ,即证对任意 S S ,H H 都无法将其打散,可以试着证明所有 h ∈ H h ∈ H 都无法映射到某一个特定的象上
证明:对任意 S = ( x 1 , ⋯ , x r + 1 ) S = ( x 1 , ⋯ , x r + 1 ) ,取 l : F → R r + 1 l : F → R r + 1 ,为 l ( f ) = ( f ( x 1 ) , ⋯ , f ( x r + 1 ) ) l ( f ) = ( f ( x 1 ) , ⋯ , f ( x r + 1 ) ) ,显然 R r + 1 R r + 1 上的集合 L = { l ( f ) : f ∈ F } L = { l ( f ) : f ∈ F } 也构成一个向量空间且 dim ( L ) ≤ r dim ( L ) ≤ r ,故存在非零 α ∈ R r + 1 α ∈ R r + 1 与 L L 正交:
∀ f ∈ F , m ∑ i = 1 α i f ( x i ) = 0 ⟹ ∑ i : α i ≥ 0 α i f ( x i ) = − ∑ i : α i < 0 α i f ( x i ) ∀ f ∈ F , ∑ i = 1 m α i f ( x i ) = 0 ⟹ ∑ i : α i ≥ 0 α i f ( x i ) = − ∑ i : α i < 0 α i f ( x i )
令 α i α i 至少有一个小于零。接下来对于 S S ,令 h ( S ) = { x : f ( x ) ≥ 0 } = { x i : x i in LHS } h ( S ) = { x : f ( x ) ≥ 0 } = { x i : x i in LHS } ,那么上面等式里左式大等于零,右式小于零,矛盾,故无法取到这个映射结果。故得证。
补充
McDiarmid 不等式
m m 维独立随机变量 S = ( X 1 , ⋯ , X m ) ∈ X m S = ( X 1 , ⋯ , X m ) ∈ X m ;若对于每个 i ∈ [ m ] i ∈ [ m ] 都存在一个 c i > 0 c i > 0 ,使得多元函数 f : X m → R f : X m → R 在任何时候单独以每一维取值变化时的函数值变化量不超过 c i c i (于是若干维变化带来的函数值变化上界等于对应维度的上界和):
∣ ∣ f ( x 1 , ⋯ , x i , ⋯ , x m ) − f ( x 1 , ⋯ , x ′ i , ⋯ , x m ) ∣ ∣ ≤ c i | f ( x 1 , ⋯ , x i , ⋯ , x m ) − f ( x 1 , ⋯ , x i ′ , ⋯ , x m ) | ≤ c i
则 f ( S ) f ( S ) 的值以很大概率满足其与期望值足够接近:
Pr [ f ( S ) − E [ f ( S ) ] ≥ ϵ ] ≤ exp ( − 2 ϵ 2 ∑ m i = 1 c 2 i ) Pr [ f ( S ) − E [ f ( S ) ] ≤ − ϵ ] ≤ exp ( − 2 ϵ 2 ∑ m i = 1 c 2 i ) Pr [ f ( S ) − E [ f ( S ) ] ≥ ϵ ] ≤ exp ( − 2 ϵ 2 ∑ i = 1 m c i 2 ) Pr [ f ( S ) − E [ f ( S ) ] ≤ − ϵ ] ≤ exp ( − 2 ϵ 2 ∑ i = 1 m c i 2 )
引理 Massart's lemma
有限集合 A ⊆ R m A ⊆ R m ,其元素的 2-范数上界为 r = max x ∈ A ∥ x ∥ 2 r = max x ∈ A ‖ x ‖ 2 ,那么有定理
E σ [ 1 m sup x ∈ A m ∑ i = 1 σ i x i ] ≤ r √ 2 log | A | m E σ [ 1 m sup x ∈ A ∑ i = 1 m σ i x i ] ≤ r 2 log | A | m
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2021-08-11 【笔记】tarjan
2021-08-11 【笔记】主席树