[转]集成学习-如何产生并结合”好而不同“的个体学习器

Hoeffding霍夫丁不等式

在<<机器学习>>第八章"集成学习"部分, 考虑二分类问题y{1,+1} 和真实函数f, 假定基分类器的错误率为ϵ, 即对每个基分类器hi

(1)P(hi(x)f(x))=ϵ

假设集成通过简单投票法结合T个基分类器, 若有超过半数的基分类器正确, 则集成分类就正确:

(2)H(x)=sign(i=1Thi(x))

假设基分类器的错误率相互独立, 则由Hoeffding不等式可知, 集成的错误率为:
(3)P(H(x)f(x))=k=0T/2(Tk)(1ϵ)kϵTkexp(12T(12ϵ)2)

对怎么得到小于等于之后的式子不甚明白.

维基百科上Hoeffding不等式的介绍是:

Hoeffding不等式适用于有界的随机变量. 设有两两独立的一系列随机变量X1,...,Xn. 假设对所有的1in, Xi都是几乎有界的变量, 即满足:

(4)P(Xi[ai,bi])=1.

那么这n个随机变量的经验期望:
(5)X¯=X1++Xnn

满足以下的不等式:
(6)P(X¯E[X¯]t)exp(2t2n2i=1n(biai)2)

(7)P(|X¯E[X¯]|t)2exp(2t2n2i=1n(biai)2)

先记这些定义吧, 证明以后有兴趣再看吧....

伯努利随机变量的特例

假定一个硬币A面朝上的概率为p, 则B面朝上的概率为1p. 抛n次硬币, A面朝上次数的期望值为np. 则A面朝上的次数不超过k次的概率为:

(8)P(H(n)k)=i=0kCnipi(1p)ni=i=0kn!i!(ni)!pi(1p)ni

H(n)为抛n次硬币A面朝上的次数

对某一ε>0k=(pε)n 时, 有Hoeffding不等式

(9)P(H(n)(pε)n)e2ε2n

对应的, 当k=(p+ε)n 时,
(10)P(H(n)(p+ε)n)e2ε2n

由此可得
(11)P((pε)nH(n)(p+ε)n)12e2ε2n

利用式(9)可推式(3)

式(3)的1ϵ 相当于式(9)的p , 令H(n)为基分类器分类正确的数量, 有

(12)P(H(x)f(x))=P(H(n)T2)

总分类器的数量为T(就是n), 令T2=(1ϵε)T, 可推得ε=12ϵ , 根据式(9)可得
(13)P(H(n)T2)exp(2(ϵ12)2T)=exp(2(ϵ2+14ϵ)T)=exp(T2(4ϵ2+14ϵ))=exp(12T(12ϵ)2)

便得到式(3)得最终不等式形式

可以看出:随着M趋近于无穷, 集成学习器预测错误的概率 p趋近于零

上述推论有非常关键的一个地方:假设基分类器的错误率相互独立。

①实际上个体学习器是为了解决同一个问题训练出来的,而且可能是同一类算法从同一个训练集中产生。

    这样个体学习器的错误率显然不能相互独立。

②实际上个体学习器的准确性和多样性本身就存在冲突。

   通常个体学习器的准确性很高之后,要增加多样性就需要牺牲准确性。
   实际上如何产生并结合”好而不同“的个体学习器就是集成学习研究的核心。
posted @ 2019-08-27 09:26  likedata  阅读(519)  评论(0编辑  收藏  举报