Hoeffding霍夫丁不等式
在<<机器学习>>第八章"集成学习"部分, 考虑二分类问题y∈{−1,+1} 和真实函数f, 假定基分类器的错误率为ϵ, 即对每个基分类器hi有
P(hi(x)≠f(x))=ϵ(1)
假设集成通过简单投票法结合
T个基分类器, 若有超过半数的基分类器正确, 则集成分类就正确:
H(x)=sign(∑i=1Thi(x))(2)
假设基分类器的错误率相互独立, 则由Hoeffding不等式可知, 集成的错误率为:
P(H(x)≠f(x))=∑k=0⌊T/2⌋(Tk)(1−ϵ)kϵT−k≤exp(−12T(1−2ϵ)2)(3)
对怎么得到小于等于之后的式子不甚明白.
维基百科上Hoeffding不等式的介绍是:
Hoeffding不等式适用于有界的随机变量. 设有两两独立的一系列随机变量X1,...,Xn. 假设对所有的1≤i≤n, Xi都是几乎有界的变量, 即满足:
P(Xi∈[ai,bi])=1.(4)
那么这n个随机变量的经验期望:
X¯¯¯¯=X1+⋅⋅⋅+Xnn(5)
满足以下的不等式:
P(X¯¯¯¯−E[X¯¯¯¯]≥t)≤exp(−2t2n2∑ni=1(bi−ai)2)(6)
P(|X¯¯¯¯−E[X¯¯¯¯]|≥t)≤2exp(−2t2n2∑ni=1(bi−ai)2)(7)
先记这些定义吧, 证明以后有兴趣再看吧....
伯努利随机变量的特例
假定一个硬币A面朝上的概率为p, 则B面朝上的概率为1−p. 抛n次硬币, A面朝上次数的期望值为n∗p. 则A面朝上的次数不超过k次的概率为:
P(H(n)≤k)=∑i=0kCinpi(1−p)n−i=∑i=0kn!i!(n−i)!pi(1−p)n−i(8)
H(n)为抛n次硬币A面朝上的次数
对某一ε>0当k=(p−ε)n 时, 有Hoeffding不等式
P(H(n)≤(p−ε)n)≤e−2ε2n(9)
对应的, 当
k=(p+ε)n 时,
P(H(n)≥(p+ε)n)≤e−2ε2n(10)
由此可得
P((p−ε)n≤H(n)≤(p+ε)n)≥1−2e−2ε2n(11)
利用式(9)可推式(3)
式(3)的1−ϵ 相当于式(9)的p , 令H(n)为基分类器分类正确的数量, 有
P(H(x)≠f(x))=P(H(n)≤⌊T2⌋)(12)
总分类器的数量为
T(就是n), 令
T2=(1−ϵ−ε)T, 可推得
ε=12−ϵ , 根据式(9)可得
P(H(n)≤⌊T2⌋)≤exp(−2(ϵ−12)2T)=exp(−2(ϵ2+14−ϵ)T)=exp(−T2(4ϵ2+1−4ϵ))=exp(−12T(1−2ϵ)2)(13)
便得到式(3)得最终不等式形式