5.1 Linear classification
考虑如下问题:R N R N 上的 X X 服从某个未知分布 D D ,并由目标函数 f : X → Y f : X → Y 映射到 { − 1 , + 1 } { − 1 , + 1 } 。根据采样 S = ( ( x 1 , y 1 ) , ⋯ , ( x m , y m ) ) S = ( ( x 1 , y 1 ) , ⋯ , ( x m , y m ) ) 确定一个二分类器 h ∈ H h ∈ H ,使得其泛化误差 R D ( h ) = Pr x ∼ D [ h ( x ) ≠ f ( x ) ] R D ( h ) = Pr x ∼ D [ h ( x ) ≠ f ( x ) ] 尽量小
选择线性分类器 linear classifier 使得复杂度比较小,即:
H = { x ↦ sign ( w ⋅ x + b ) : w ∈ R N − { 0 } , b ∈ R } H = { x ↦ sign ( w ⋅ x + b ) : w ∈ R N − { 0 } , b ∈ R }
也就是通过超平面 hyperplane 二分类。另外 w ⋅ x + b w ⋅ x + b 和 − w ⋅ x − b − w ⋅ x − b 代表同一个超平面但是标签取反,可以把 0 0 代入判断一下正例位置。
5.2 Separable case
本节假设样本 S S 线性可分,也就是样本的标签是某个待学习的超平面 ( w , b ) ( w , b ) 对样本进行映射得到的:∀ i ∈ [ m ] , y i ( w ⋅ x i + b ) ≥ 0 ∀ i ∈ [ m ] , y i ( w ⋅ x i + b ) ≥ 0
SVM 考虑几何间隔 geometric margin
定义 Geometric margin
点 x x 和超平面 h : ( w , b ) h : ( w , b ) 的几何间隔,定义为两者的欧几里得距离 ρ h ( x ) ρ h ( x ) :
ρ h ( x ) = | w ⋅ x + b | ∥ w ∥ 2 ρ h ( x ) = | w ⋅ x + b | ‖ w ‖ 2
小证一下:设沿 x x 方向与平面交于 x ′ x ′ ,那么距离就是 x − x ′ x − x ′ 在 w w 方向的投影长度,即 ρ = | ( x − x ′ ) ⋅ w ∥ w ∥ | = | w ⋅ x − w ⋅ x ′ | ∥ w ∥ = | ( w ⋅ x + b ) − ( w ⋅ x ′ + b ) | ∥ w ∥ = | w ⋅ x + b | ∥ w ∥ ρ = | ( x − x ′ ) ⋅ w ‖ w ‖ | = | w ⋅ x − w ⋅ x ′ | ‖ w ‖ = | ( w ⋅ x + b ) − ( w ⋅ x ′ + b ) | ‖ w ‖ = | w ⋅ x + b | ‖ w ‖
定义线性分类器对样本 S S 的几何距离为 ρ h = min ρ h ( x i ) ρ h = min ρ h ( x i ) ,而 SVM 应取到最大的几何距离,有:
w , b = arg max w , b : y i ( w ⋅ x i + b ) ≥ 0 min i | w ⋅ x i + b | ∥ w ∥ = arg max w , b min i y i ( w ⋅ x i + b ) ∥ w ∥ ; 假 设 样 本 线 性 可 分 = arg max w , b : min y i ( w ⋅ x i + b ) = 1 1 ∥ w ∥ ; 加 条 件 约 束 分 式 上 下 变 动 = arg max w , b : y i ( w ⋅ x i + b ) ≥ 1 1 ∥ w ∥ = arg min w , b : y i ( w ⋅ x i + b ) ≥ 1 1 2 ∥ w ∥ 2 ; 凸 化 w , b = arg max w , b : y i ( w ⋅ x i + b ) ≥ 0 min i | w ⋅ x i + b | ‖ w ‖ = arg max w , b min i y i ( w ⋅ x i + b ) ‖ w ‖ ; 假设样本线性可分 = arg max w , b : min y i ( w ⋅ x i + b ) = 1 1 ‖ w ‖ ; 加条件约束分式上下变动 = arg max w , b : y i ( w ⋅ x i + b ) ≥ 1 1 ‖ w ‖ = arg min w , b : y i ( w ⋅ x i + b ) ≥ 1 1 2 ‖ w ‖ 2 ; 凸化
从而得到如下对 ( w , b ) ( w , b ) 的凸优化问题:
min w , b 1 2 ∥ w ∥ 2 s u b j e c t t o : g i ( w , b ) = 1 − y i ( w ⋅ x i + b ) ≤ 0 , ∀ i ∈ [ m ] min w , b 1 2 ‖ w ‖ 2 s u b j e c t t o : g i ( w , b ) = 1 − y i ( w ⋅ x i + b ) ≤ 0 , ∀ i ∈ [ m ]
根据以二阶导定义的凸函数,由于 F : w → ∥ w ∥ 2 / 2 F : w → ‖ w ‖ 2 / 2 的 Hessian ∇ 2 F = I ∇ 2 F = I 是正定的,故 F F 是严格的凸函数;而约束 g i g i 均为仿射函数,故该优化问题有唯一解。
(这类目标函数为平方次、约束为仿射的问题,属于二次规划问题 quadratic programming (QP) ,已有大量相关算法;对于 SVM 问题有 block coordinate descent 等算法)
由于约束都是仿射,该问题与对偶问题等价,因此转到对偶问题:
引入 Lagrange 变量 α = ( α 1 , ⋯ , α m ) ′ ≥ 0 α = ( α 1 , ⋯ , α m ) ′ ≥ 0 ,定义 Lagrangian L ( w , b , α ) L ( w , b , α ) 并给出最优解的 KKT 条件:
L ( w , b , α ) = 1 2 ∥ w ∥ 2 + m ∑ i = 1 α i [ 1 − y i ( w ⋅ x i + b ) ] ∇ w L = w − m ∑ i = 1 α i y i x i = 0 ⟹ w = m ∑ i = 1 α i y i x i ∇ b L = − m ∑ i = 1 α i y i = 0 ⟹ m ∑ i = 1 α i y i = 0 α ⋅ g ( w , b ) = 0 ⟹ ∀ i ∈ [ m ] , α i = 0 ∨ y i ( w ⋅ x i + b ) = 1 ; KKT L ( w , b , α ) = 1 2 ‖ w ‖ 2 + ∑ i = 1 m α i [ 1 − y i ( w ⋅ x i + b ) ] ∇ w L = w − ∑ i = 1 m α i y i x i = 0 ⟹ w = ∑ i = 1 m α i y i x i ∇ b L = − ∑ i = 1 m α i y i = 0 ⟹ ∑ i = 1 m α i y i = 0 α ⋅ g ( w , b ) = 0 ⟹ ∀ i ∈ [ m ] , α i = 0 ∨ y i ( w ⋅ x i + b ) = 1 ; KKT
根据条件,w w 为若干 α i α i 不为零的样本 x i x i (称为支持向量 support vector )的线性组合,且这些向量必定落在 w ⋅ x + b = ± 1 w ⋅ x + b = ± 1 的平面上。注意到即使 ( w , b ) ( w , b ) 有唯一解,α α 却不一定唯一,因为只需要 N + 1 N + 1 个向量就能定义一个 N N 维平面
利用 KKT 条件消去 w , b w , b ,得到对偶问题:
max α L = max α [ m ∑ i = 1 α i − 1 2 m ∑ i = 1 m ∑ j = 1 ( α i y i x i ) ⋅ ( α j y j x j ) ] s u b j e c t t o : α ≥ 0 ∧ Σ m i = 1 α i y i = 0 max α L = max α [ ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m ( α i y i x i ) ⋅ ( α j y j x j ) ] s u b j e c t t o : α ≥ 0 ∧ Σ i = 1 m α i y i = 0
这个问题同样是凸优化问题(∇ 2 α L ⪯ 0 ∇ α 2 L ⪯ 0 ,concave,且为二次项,是 QP 问题,可用 SMO 算法解决)
解出 α α 后,就能得到对偶原问题的解:
w = m ∑ i = 1 α i y i x i , b = y s v − w ⋅ x s v ; for any support vector s v w = ∑ i = 1 m α i y i x i , b = y s v − w ⋅ x s v ; for any support vector s v
从而得到假设平面 h ( x ) h ( x )
h ( x ) = sgn ( w ⋅ x + b ) = sgn ( m ∑ i = 1 α i y i ( x i ⋅ x ) + b ) h ( x ) = sgn ( w ⋅ x + b ) = sgn ( ∑ i = 1 m α i y i ( x i ⋅ x ) + b )
注意到假设平面只用到支持向量与输入向量的内积,我们之后在这一点上可以做文章,例如引入核方法
最后,几何间隔 ρ 2 = 1 / ∥ w ∥ 2 2 = 1 / ∑ m i = 1 α i = 1 / ∥ α ∥ 1 ρ 2 = 1 / ‖ w ‖ 2 2 = 1 / ∑ i = 1 m α i = 1 / ‖ α ‖ 1 ,证明只需上述求 b b 的式子两边同乘 ∑ α y ∑ α y 即可
Leave-one-out analysis
依然认为样本标签为通过某个超平面映射、始终是线性可分的
我们给泛化误差(的期望)一个上界,分析式子:
E S ∼ D m [ R ( h S ) ] = E S ∼ D m [ E x ∼ D [ 1 h S ( x ) ≠ y ] ] = E S ∼ D m , x ∼ D [ 1 h S ( x ) ≠ y ] = E S ′ ∼ D m + 1 [ 1 h S ′ / x 1 ( x 1 ) ≠ y 1 ] = E S ′ ∼ D m + 1 [ 1 h S ′ / x 2 ( x 2 ) ≠ y 2 ] = ⋯ = E S ′ ∼ D m + 1 [ 1 m + 1 m + 1 ∑ i = 1 1 h S ′ / { x i } ( x i ) ≠ y i ] E S ∼ D m [ R ( h S ) ] = E S ∼ D m [ E x ∼ D [ 1 h S ( x ) ≠ y ] ] = E S ∼ D m , x ∼ D [ 1 h S ( x ) ≠ y ] = E S ′ ∼ D m + 1 [ 1 h S ′ / x 1 ( x 1 ) ≠ y 1 ] = E S ′ ∼ D m + 1 [ 1 h S ′ / x 2 ( x 2 ) ≠ y 2 ] = ⋯ = E S ′ ∼ D m + 1 [ 1 m + 1 ∑ i = 1 m + 1 1 h S ′ / { x i } ( x i ) ≠ y i ]
期望式内类似对 m + 1 m + 1 个样本使用留一法,因此定义算法 A A 对样本 S ′ = ( ( x 1 , y 1 ) , … , ( x m + 1 , y m + 1 ) ) S ′ = ( ( x 1 , y 1 ) , … , ( x m + 1 , y m + 1 ) ) 的 Leave-one-out error ˆ R LOO ( A ) R ^ LOO ( A ) ,为用剩余样本分类留出样本的平均误差,并对其放缩:
ˆ R LOO ( A ) = 1 m + 1 m + 1 ∑ i = 1 1 h S ′ / { x i } ( x i ) ≠ y i ≤ N S V ( S ′ ) m + 1 R ^ LOO ( A ) = 1 m + 1 ∑ i = 1 m + 1 1 h S ′ / { x i } ( x i ) ≠ y i ≤ N S V ( S ′ ) m + 1
其中 N S V ( S ′ ) N S V ( S ′ ) 是用 SVM 分类 S ′ S ′ 得到的支持向量个数;显然若某个 x i x i 贡献了误差,那么它必定是支持向量之一,否则去掉它不会对分类平面造成影响
结合上述式子,得到:
E S ∼ D m [ R ( h S ) ] ≤ E S ′ ∼ D m + 1 [ N S V ( S ′ ) m + 1 ] E S ∼ D m [ R ( h S ) ] ≤ E S ′ ∼ D m + 1 [ N S V ( S ′ ) m + 1 ]
这就是我们的上界。一般来说支持向量不会太多,所以右式应该不会很大;但是这个式子只对所有情况的平均值给出上界,并不是之前提到 PAC 形式。后面会给出更强的 high-probability bounds。
5.3 Non-separable case
也就是对任意 ( w , b ) ( w , b ) 总存在 i ∈ [ m ] i ∈ [ m ] 使得 y i ( w ⋅ x i + b ) ≱ 1 y i ( w ⋅ x i + b ) ≱ 1 ,一种常用的松弛做法,是引入松弛变量 slack variables ξ ≥ 0 ξ ≥ 0 :
y i [ w ⋅ x i + b ] ≥ 1 − ξ i , ∀ i ∈ [ m ] , ξ i ≥ 0 y i [ w ⋅ x i + b ] ≥ 1 − ξ i , ∀ i ∈ [ m ] , ξ i ≥ 0
考虑到一对矛盾的点:尽可能小的松弛因素 ∑ ξ i ∑ ξ i ,或者更一般地 ∑ ξ p i ∑ ξ i p ;和尽可能大的几何间隔 1 / ∥ w ∥ 1 / ‖ w ‖ ,揉进一个式子,得到关于 w , b , ξ w , b , ξ 的优化问题:
min w , b , ξ 1 2 ∥ w ∥ 2 + C m ∑ i = 1 ξ p i s u b j e c t t o : y i ( w ⋅ x i + b ) ≥ 1 − ξ i ∧ ξ i ≥ 0 , i ∈ [ m ] min w , b , ξ 1 2 ‖ w ‖ 2 + C ∑ i = 1 m ξ i p s u b j e c t t o : y i ( w ⋅ x i + b ) ≥ 1 − ξ i ∧ ξ i ≥ 0 , i ∈ [ m ]
其中 C ≥ 0 C ≥ 0 ;一般取 p = 1 p = 1 ,称为 hinge loss
这又是个凸优化问题(仿射约束+待优化函数为凸),扔给 Lagrangian 和 KKT:
L ( w , b , ξ , α , β ) = 1 2 ∥ w ∥ 2 + C m ∑ i = 1 ξ i − m ∑ i = 1 α i [ y i ( w ⋅ x i + b ) − 1 + ξ i ] − m ∑ i = 1 β i ξ i ∇ w L = 0 ⟹ w = m ∑ i = 1 α i y i x i ∇ b L = 0 ⟹ m ∑ i = 1 α i y i = 0 ∇ ξ i L = 0 ⟹ α i + β i = C ∀ i ∈ [ m ] , α i [ y i ( w ⋅ x i + b ) − 1 + ξ i ] = 0 ∀ i ∈ [ m ] , β i ξ i = 0 ; KKT L ( w , b , ξ , α , β ) = 1 2 ‖ w ‖ 2 + C ∑ i = 1 m ξ i − ∑ i = 1 m α i [ y i ( w ⋅ x i + b ) − 1 + ξ i ] − ∑ i = 1 m β i ξ i ∇ w L = 0 ⟹ w = ∑ i = 1 m α i y i x i ∇ b L = 0 ⟹ ∑ i = 1 m α i y i = 0 ∇ ξ i L = 0 ⟹ α i + β i = C ∀ i ∈ [ m ] , α i [ y i ( w ⋅ x i + b ) − 1 + ξ i ] = 0 ∀ i ∈ [ m ] , β i ξ i = 0 ; KKT
观察式子,w w 为支持向量的线性组合;对于一个支持向量 x x ,由于 α ≠ 0 α ≠ 0 ,则 [ y ( w ⋅ x + b ) − 1 + ξ ] = 0 [ y ( w ⋅ x + b ) − 1 + ξ ] = 0 ,两种情况:若 ξ = 0 ξ = 0 ,则该向量就落在支持面上,和原本的支持向量一样;若 ξ ≠ 0 ξ ≠ 0 ,则该点在支持面内侧或者越过分类面(称为 outlier ),从而 β = 0 , α = C β = 0 , α = C ,从而以 C y x C y x 贡献给 w w
同样地,w w 有唯一解,但是支持向量的解可能不唯一
对偶问题:约到剩下 α , β α , β ,发现 C ∑ ξ i C ∑ ξ i 和拉格朗日项里多出来的那部分抵消了,得到和原本一样的式子;但是条件部分还需要满足 α ≤ C α ≤ C :
max α L = max α [ m ∑ i = 1 α i − 1 2 m ∑ i = 1 m ∑ j = 1 ( α i y i x i ) ⋅ ( α j y j x j ) ] s u b j e c t t o : 0 ≤ α ≤ C ∧ Σ m i = 1 α i y i = 0 max α L = max α [ ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m ( α i y i x i ) ⋅ ( α j y j x j ) ] s u b j e c t t o : 0 ≤ α ≤ C ∧ Σ i = 1 m α i y i = 0
又是个 QP,解出 α α 后同样有:w = ∑ m i = 1 α i y i x i , b = y s v − w ⋅ x s v w = ∑ i = 1 m α i y i x i , b = y s v − w ⋅ x s v
从而得到假设平面 h ( x ) = sgn ( w ⋅ x + b ) = sgn ( ∑ m i = 1 α i y i ( x i ⋅ x ) + b ) h ( x ) = sgn ( w ⋅ x + b ) = sgn ( ∑ i = 1 m α i y i ( x i ⋅ x ) + b ) ,它依然只依赖向量内积——之后会在此做文章
5.4 Margin theory
为分类函数 h h 提出 “置信间隔 confidence margin ” 的概念。
考虑 y h ( x ) > 0 y h ( x ) > 0 刻画了分类成功的情况,此时用 | h ( x ) | | h ( x ) | 描述这次预测的置信度 confidence 。当置信度较低时,即使分类正确,也需要接受一定的惩罚。因此引入置信间隔 ρ > 0 ρ > 0 和对应的损失函数 ρ ρ -margin loss :Φ ρ ( x ) = min ( 1 , max ( 0 , 1 − x / ρ ) ) Φ ρ ( x ) = min ( 1 , max ( 0 , 1 − x / ρ ) ) ,也就是一个 ( − ∞ , 1 ) → ( 0 , 1 ) → ( ρ , 0 ) → ( + ∞ , 0 ) ( − ∞ , 1 ) → ( 0 , 1 ) → ( ρ , 0 ) → ( + ∞ , 0 ) 的分段函数
同时定义经验边界损失:
Def. Empirical margin loss
假设 h h 关于样本 S = ( x 1 , ⋯ , x m ) S = ( x 1 , ⋯ , x m ) 的 empirical margin loss ,为 ρ ρ -margin loss Φ ρ Φ ρ 的平均值:
ˆ R S , ρ ( h ) = 1 m m ∑ i = 1 Φ ρ ( y i h ( x i ) ) R ^ S , ρ ( h ) = 1 m ∑ i = 1 m Φ ρ ( y i h ( x i ) )
之所以用 ρ ρ -margin loss 而不是简单在 ρ ρ 处 0-1 突变,是因为这样保证其斜率最多为 1 / ρ 1 / ρ ,也称之为 1 / ρ 1 / ρ -Lipschitz ,有可用的定理:
Th. Talagrand's lemma
Φ 1 , ⋯ , Φ m : R → R Φ 1 , ⋯ , Φ m : R → R 都是 l l -Lipschitz 函数,σ 1 , ⋯ , σ m σ 1 , ⋯ , σ m 是 Rademacher 变量;对任意实函数的假设集合 H H ,关于样本 S = ( x 1 , ⋯ , x m ) S = ( x 1 , ⋯ , x m ) ,都有:
1 m E σ [ sup h ∈ H m ∑ i = 1 σ i ( Φ i ∘ h ) ( x i ) ] ≤ l m E σ [ sup h ∈ H m ∑ i = 1 σ i h ( x i ) ] = l ⋅ ˆ R S ( H ) 1 m E σ [ sup h ∈ H ∑ i = 1 m σ i ( Φ i ∘ h ) ( x i ) ] ≤ l m E σ [ sup h ∈ H ∑ i = 1 m σ i h ( x i ) ] = l ⋅ R ^ S ( H )
特别地,若 Φ i = Φ , i ∈ [ m ] Φ i = Φ , i ∈ [ m ] ,则该式变为 ˆ R S ( Φ ∘ H ) ≤ l ⋅ ˆ R S ( H ) R ^ S ( Φ ∘ H ) ≤ l ⋅ R ^ S ( H )
感性理解,左式某个 E σ E σ 取 ± 1 ± 1 可视为某两个 Φ σ ∘ h 1 , Φ σ ∘ h 2 Φ σ ∘ h 1 , Φ σ ∘ h 2 的差,由于斜率限制它不会大于 h 1 , h 2 h 1 , h 2 差的 l l 倍
证明:
先划分为 E σ 1 , ⋯ , σ m − 1 [ E σ m [ sup ∑ m − 1 i = 1 + σ m ( Φ m ∘ h ) ( x m ) ] ] E σ 1 , ⋯ , σ m − 1 [ E σ m [ sup ∑ i = 1 m − 1 + σ m ( Φ m ∘ h ) ( x m ) ] ] ,考虑对 E σ m E σ m 单独放缩
首先是一个套路:
如果要将 sup h sup h 向上放缩,考虑先松弛 sup sup ,表述为:∀ ϵ > 0 , ∃ h 0 , ( 1 − ϵ ) sup h ≤ h 0 ∀ ϵ > 0 , ∃ h 0 , ( 1 − ϵ ) sup h ≤ h 0 ,再对 h 0 h 0 放缩到某个 g g ;相关证毕后再说明该式对任意 ϵ ϵ 均成立,从而有 sup h ≤ g sup h ≤ g 成立
用该表述,由于有 σ m σ m ,我们分别用 h 1 , h 2 h 1 , h 2 上限住 σ m = ± 1 σ m = ± 1 的情况,然后把 E σ m E σ m 替换为两者求和
接着,对于两者的 ( Φ m ∘ h 1 ) ( x m ) − ( Φ m ∘ h 2 ) ( x m ) ( Φ m ∘ h 1 ) ( x m ) − ( Φ m ∘ h 2 ) ( x m ) ,考虑上限住它同时摘掉 Φ Φ ,就自然地引入了 Φ Φ 的变化率,也就是 l l -Lipschitz 概念,得到其 ≤ s l ( h 1 ( x m ) − h 2 ( x m ) ) ≤ s l ( h 1 ( x m ) − h 2 ( x m ) ) ,其中 s s 是修正符号
然后是刚才的逆过程:用 sup sup 又上限住两者同时统一形式,一正一负的求和又把 E σ m E σ m 请了回来,最后得到 E σ m [ sup ∑ m − 1 i = 1 + σ m ( Φ m ∘ h ) ( x m ) ] ≤ E σ m [ sup ∑ m − 1 i = 1 + σ m l h ( x m ) ] E σ m [ sup ∑ i = 1 m − 1 + σ m ( Φ m ∘ h ) ( x m ) ] ≤ E σ m [ sup ∑ i = 1 m − 1 + σ m l h ( x m ) ] ;对其他 σ σ 同理即可
利用该定理,给出我们关于泛化误差 R ( h ) R ( h ) 的上界:
Th. Margin bound for binary classification
H H 是映射 h : X → R h : X → R 的集合(以其符号进行二分类)。固定置信间隔 ρ > 0 ρ > 0 ,以至少 1 − δ 1 − δ 的概率,对任意 h ∈ H h ∈ H 有:
R ( h ) ≤ ˆ R S , ρ ( h ) + 2 ρ R m ( H ) + √ log 1 δ 2 m R ( h ) ≤ ˆ R S , ρ ( h ) + 2 ρ ˆ R S ( H ) + 3 √ log 2 δ 2 m R ( h ) ≤ R ^ S , ρ ( h ) + 2 ρ R m ( H ) + log 1 δ 2 m R ( h ) ≤ R ^ S , ρ ( h ) + 2 ρ R ^ S ( H ) + 3 log 2 δ 2 m
其中 R ( h ) = E [ 1 y h ( x ) ≤ 0 ] , ˆ R S , ρ ( h ) = 1 m ∑ m i = 1 Φ ρ ( y i h ( x i ) ) R ( h ) = E [ 1 y h ( x ) ≤ 0 ] , R ^ S , ρ ( h ) = 1 m ∑ i = 1 m Φ ρ ( y i h ( x i ) )
证明,以第一个式子为例,第二个式子同理
首先 R ( h ) ≤ E [ Φ ρ ( y h ( x ) ) ] R ( h ) ≤ E [ Φ ρ ( y h ( x ) ) ]
记 ˜ H = { z = ( x , y ) ↦ y h ( x ) : h ∈ H } , G = Φ ρ ∘ ˜ H H ~ = { z = ( x , y ) ↦ y h ( x ) : h ∈ H } , G = Φ ρ ∘ H ~ ,后者元素为 g : z → [ 0 , 1 ] g : z → [ 0 , 1 ] ,代入定理(见 3.1)
E [ g ( z ) ] ≤ 1 m m ∑ i = 1 g ( z i ) + 2 R m ( G ) + √ log 1 δ 2 m ⟹ E [ Φ ρ ( y h ( x ) ) ] ≤ ˆ R S , ρ ( h ) + 2 R m ( Φ ρ ∘ ˜ H ) + √ log 1 δ 2 m ≤ ˆ R S , ρ ( h ) + 2 ρ R m ( ˜ H ) + √ log 1 δ 2 m E [ g ( z ) ] ≤ 1 m ∑ i = 1 m g ( z i ) + 2 R m ( G ) + log 1 δ 2 m ⟹ E [ Φ ρ ( y h ( x ) ) ] ≤ R ^ S , ρ ( h ) + 2 R m ( Φ ρ ∘ H ~ ) + log 1 δ 2 m ≤ R ^ S , ρ ( h ) + 2 ρ R m ( H ~ ) + log 1 δ 2 m
且 R m ( ˜ H ) = E S , σ [ sup h ∈ H 1 m ∑ m i = 1 σ i y i h ( x i ) ] R m ( H ~ ) = E S , σ [ sup h ∈ H 1 m ∑ i = 1 m σ i y i h ( x i ) ] 可以直接把 y i y i 去掉(可见 Rademacher 变量可以做为有无标签的桥梁 ),也就是 R m ( H ) R m ( H ) ,于是得证
观察式子,它包含关于置信区间 ρ ρ 的 trade-off:增大 ρ ρ ,第二项会减小,但是第一项会被惩罚地更多。进一步思考:
(这是一个我从未注意过的问题)
既然这是个关于 ρ ρ 的 trade-off,那么我们能不能考虑滑动这个 ρ ρ 以达到一个理想的上界呢?
答案是不能。为什么?
当我们滑动 ρ ρ 时,我们求最值的这个过程等价于承认了这个不等式对滑到的任意 ρ ρ 成立,更完整地说,命题变成:“以至少 1 − δ 1 − δ 的概率,对任意 ρ ρ 成立”
而我们原本的定理是:“对一个 ρ ρ 以至少 1 − δ 1 − δ 的概率成立”。显然两者是不等价的:前者事件是后者的交,而概率会小等于后者
因此我们想要滑动 ρ ρ 的话,我们不能在原定理上滑,我们应该先给出一个对一个范围内的 ρ ρ (以某个概率)同时成立的定理
Th. Margin bound for ρ ∈ ( 0 , r ] ρ ∈ ( 0 , r ]
H H 是映射 h : X → R h : X → R 的集合(以其符号进行二分类)。固定 r > 0 r > 0 ,以至少 1 − δ 1 − δ 的概率,对任意 h ∈ H , ρ ∈ ( 0 , r ] h ∈ H , ρ ∈ ( 0 , r ] 有:
R ( h ) ≤ ˆ R S , ρ ( h ) + 4 ρ R m ( H ) + √ log log 2 2 r ρ m + √ log 2 δ 2 m R ( h ) ≤ ˆ R S , ρ ( h ) + 4 ρ ˆ R S ( H ) + √ log log 2 2 r ρ m + 3 √ log 4 δ 2 m R ( h ) ≤ R ^ S , ρ ( h ) + 4 ρ R m ( H ) + log log 2 2 r ρ m + log 2 δ 2 m R ( h ) ≤ R ^ S , ρ ( h ) + 4 ρ R ^ S ( H ) + log log 2 2 r ρ m + 3 log 4 δ 2 m
证明思路,以第一个式子为例:
利用原定理的另一个表述:Pr [ sup h ∈ H { f ( ρ , ϵ ) } > 0 ] ≤ exp ( − 2 m ϵ 2 ) Pr [ sup h ∈ H { f ( ρ , ϵ ) } > 0 ] ≤ exp ( − 2 m ϵ 2 ) ,f f 就是把不等式的项全部移到一边
构造事件序列:( ρ k ) k ≥ 1 , ( ϵ k ) k ≥ 1 ( ρ k ) k ≥ 1 , ( ϵ k ) k ≥ 1 ,套进该式,然后用 union bound 合并事件:
Pr [ sup h ∈ H , k ≥ 1 { f ( ρ k , ϵ k ) } > 0 ] ≤ ∑ k ≥ 1 exp ( − 2 m ϵ 2 k ) Pr [ sup h ∈ H , k ≥ 1 { f ( ρ k , ϵ k ) } > 0 ] ≤ ∑ k ≥ 1 exp ( − 2 m ϵ k 2 )
后者需要进一步放缩成关于 ϵ ϵ 的式子,往级数求和收敛靠,取 ϵ k = ϵ + u k ϵ k = ϵ + u k ,狠狠放缩:
= ∑ k ≥ 1 exp ( − 2 m ( ϵ + u k ) 2 ) ≤ exp ( − 2 m ϵ 2 ) ∑ k ≥ 1 exp ( − 2 m u 2 k ) = ∑ k ≥ 1 exp ( − 2 m ( ϵ + u k ) 2 ) ≤ exp ( − 2 m ϵ 2 ) ∑ k ≥ 1 exp ( − 2 m u k 2 )
根据该式构造 u k u k :取开方,除以 m m ,再套一个 log log ,即 u k = √ ( log k ) / m u k = ( log k ) / m ,丢进去,级数求和收敛:
= exp ( − 2 m ϵ 2 ) ∑ k ≥ 1 1 / k 2 = π 2 6 exp ( − 2 m ϵ 2 ) ≤ 2 exp ( − 2 m ϵ 2 ) = exp ( − 2 m ϵ 2 ) ∑ k ≥ 1 1 / k 2 = π 2 6 exp ( − 2 m ϵ 2 ) ≤ 2 exp ( − 2 m ϵ 2 )
得到对事件序列 ( ρ k ) k ≥ 1 ( ρ k ) k ≥ 1 成立的引理,接下来把 ρ ∈ ( 0 , r ] ρ ∈ ( 0 , r ] 套进去,假设 ρ ρ 的界对应为 g ( ρ ) g ( ρ ) ,即证明 Pr [ sup h ∈ H , ρ ∈ ( 0 , c ] { g ( ρ ) } > 0 ] ≤ Pr [ sup h ∈ H , k ≥ 1 { f ( ρ k ) } > 0 ] Pr [ sup h ∈ H , ρ ∈ ( 0 , c ] { g ( ρ ) } > 0 ] ≤ Pr [ sup h ∈ H , k ≥ 1 { f ( ρ k ) } > 0 ] ,不妨证明前者包含于后者,即 sup h ∈ H , ρ ∈ ( 0 , c ] { g ( ρ ) } ≤ sup h ∈ H , k ≥ 1 { f ( ρ k ) } sup h ∈ H , ρ ∈ ( 0 , c ] { g ( ρ ) } ≤ sup h ∈ H , k ≥ 1 { f ( ρ k ) } ,不妨证明对任意 ρ ∈ ( 0 , c ] ρ ∈ ( 0 , c ] ,总存在 ρ k ρ k 使得 g ( ρ ) ≤ f ( ρ k ) g ( ρ ) ≤ f ( ρ k )
由于 f ( ρ k ) = R ( h ) − ˆ R S , ρ k ( h ) − 2 ρ k R m ( H ) − ϵ − √ ( log k ) / m f ( ρ k ) = R ( h ) − R ^ S , ρ k ( h ) − 2 ρ k R m ( H ) − ϵ − ( log k ) / m ,为了向下放缩,可以先取 ρ k = r / 2 k ρ k = r / 2 k ,从而对于任意 ρ ∈ ( 0 , r ] ρ ∈ ( 0 , r ] ,总存在 ρ ∈ ( ρ k , ρ k − 1 ] , ρ ≤ 2 ρ k ρ ∈ ( ρ k , ρ k − 1 ] , ρ ≤ 2 ρ k ,这样设计 使得我们同时拥有 ρ k , ρ ρ k , ρ 的不同方向的不等号 ,方便我们对每一项选择其一进行放缩,放缩后的式子即为 g ( ρ ) g ( ρ ) ,从而得证
对于有界情况,先对 Rademacher 复杂度提出一个上界:
Th. Bound for Rademacher complexity, bounded weight vectors case
容量为 m m 的样本 S ⊆ { x : ∥ x ∥ ≤ r } S ⊆ { x : ‖ x ‖ ≤ r } ,假设集合 H = { x ↦ w ⋅ x : ∥ w ∥ ≤ Λ } H = { x ↦ w ⋅ x : ‖ w ‖ ≤ Λ } ,则 H H 的 Rademacher complexity 具有上界:
ˆ R S ( H ) ≤ √ r 2 Λ 2 m R m ( H ) = E S [ ˆ R S ( H ) ] ≤ √ r 2 Λ 2 m R ^ S ( H ) ≤ r 2 Λ 2 m R m ( H ) = E S [ R ^ S ( H ) ] ≤ r 2 Λ 2 m
注意到上界是一个和特征空间 X X (的维度)无关的式子,具体后面会讨论
证明:
ˆ R S ( H ) = 1 m E σ [ sup ∥ w ∥ ≤ Λ ∑ m i = 1 σ i w ⋅ x i ] R ^ S ( H ) = 1 m E σ [ sup ‖ w ‖ ≤ Λ ∑ i = 1 m σ i w ⋅ x i ]
提出 w w ,对 w ⋅ ∑ m i = 1 σ i x i w ⋅ ∑ i = 1 m σ i x i 用柯西不等式 Cauchy-Schwartz | a ⋅ b | ≤ | a | ⋅ | b | | a ⋅ b | ≤ | a | ⋅ | b | :
w ⋅ ∑ m i = 1 σ i x i ≤ ∥ w ⋅ ∑ m i = 1 σ i x i ∥ ≤ ∥ w ∥ ⋅ ∥ ∑ m i = 1 σ i x i ∥ ≤ Λ ∥ ∑ m i = 1 σ i x i ∥ w ⋅ ∑ i = 1 m σ i x i ≤ ‖ w ⋅ ∑ i = 1 m σ i x i ‖ ≤ ‖ w ‖ ⋅ ‖ ∑ i = 1 m σ i x i ‖ ≤ Λ ‖ ∑ i = 1 m σ i x i ‖
E σ [ ∥ ∑ m i = 1 σ i x i ∥ ] = E σ [ √ ∑ m i = 1 ∑ m j = 1 σ i σ j x i ⋅ x j ] = E σ [ √ ∑ i ≠ j σ i σ j x i ⋅ x j + ∑ m i = 1 ∥ x i ∥ 2 ] E σ [ ‖ ∑ i = 1 m σ i x i ‖ ] = E σ [ ∑ i = 1 m ∑ j = 1 m σ i σ j x i ⋅ x j ] = E σ [ ∑ i ≠ j σ i σ j x i ⋅ x j + ∑ i = 1 m ‖ x i ‖ 2 ] ,考虑把 E E 塞进根号里就能去掉 ∑ i ≠ j ∑ i ≠ j ,考虑 Jensen 不等式:凸函数 f f 有 f ( E [ X ] ) ≤ E [ f ( X ) ] f ( E [ X ] ) ≤ E [ f ( X ) ] ,取 f f 为平方,则原式的平方小等于 E σ [ ∑ i ≠ j σ i σ j x i ⋅ x j + ∑ m i = 1 ∥ x i ∥ 2 ] = E σ [ ∑ m i = 1 ∥ x i ∥ 2 ] ≤ m r 2 E σ [ ∑ i ≠ j σ i σ j x i ⋅ x j + ∑ i = 1 m ‖ x i ‖ 2 ] = E σ [ ∑ i = 1 m ‖ x i ‖ 2 ] ≤ m r 2 ,代入得到 Λ √ m r 2 / m = √ r 2 Λ 2 / m Λ m r 2 / m = r 2 Λ 2 / m
合并该定理和上述两种定理,分别得到:
Th. Margin bound, bounded weight vectors case
容量为 m m 的样本 S ⊆ { x : ∥ x ∥ ≤ r } S ⊆ { x : ‖ x ‖ ≤ r } ,假设集合 H = { x ↦ w ⋅ x : ∥ w ∥ ≤ Λ } H = { x ↦ w ⋅ x : ‖ w ‖ ≤ Λ } ,则
固定置信间隔 ρ > 0 ρ > 0 ,以至少 1 − δ 1 − δ 的概率,对任意 h ∈ H h ∈ H 有:
R ( h ) ≤ ˆ R S , ρ ( h ) + 2 ρ √ r 2 Λ 2 m + √ log 1 δ 2 m R ( h ) ≤ R ^ S , ρ ( h ) + 2 ρ r 2 Λ 2 m + log 1 δ 2 m
对于该固定的 r > 0 r > 0 ,以至少 1 − δ 1 − δ 的概率,对任意 h ∈ H , ρ ∈ ( 0 , r ] h ∈ H , ρ ∈ ( 0 , r ] 有:
R ( h ) ≤ ˆ R S , ρ ( h ) + 4 ρ √ r 2 Λ 2 m + √ log log 2 2 r ρ m + √ log 2 δ 2 m R ( h ) ≤ R ^ S , ρ ( h ) + 4 ρ r 2 Λ 2 m + log log 2 2 r ρ m + log 2 δ 2 m
观察式子,这个上界只和分类面 margin 有关,即对样本的分类惩罚项 ˆ R S , ρ ( h ) R ^ S , ρ ( h ) 和 r Λ / ρ r Λ / ρ 项。对于线性可分情况,记当前分类面的几何距离为 ρ geom ρ geom ,令 ρ = ρ geom ρ = ρ geom ,则分类惩罚项为零,对于后一项显然令几何距离越大越好,这就是 SVM 算法来由的理论保障
此外,我们曾经提到过泛化误差的下界是关于特征空间 X X 及其分布的式子,而这个定理给的上界看起来与之无关。实际上这并不矛盾,因为下界的叙述是对于总是存在的那个不好的分布 D D 而言的,而这种分布下,上界会因为巨大的经验误差 ˆ R S , ρ ( h ) R ^ S , ρ ( h ) 变得很松;因此,即使上界从式子上看起来无关,是否存在一个好的分类面(从而使得经验误差足够小)却是和特征空间的分布有关的
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)