集成学习-学习笔记

集成学习：

通过构建多个学习器完成学习任务。主要分为两类：

1. 多个学习器之间存在强依赖关系，必须串行生成序列化方法。代表为Boosting提升方法。

2. 多个学习器之间不存在强依赖关系，可同时生成并行化方法。代表为Bagging和随机森林。

文章结构：

1. 前向分步算法介绍

2. 前向分步算法推导出AdaBoost及提升树算法

3. Bagging及随机森林简介

4. 集成学习性能度量

前向分步算法：

在给定训练数据及损函数情况下，前向分步算法能从前往后，每一步通过优化损失函数，只学习一个基函数及其系数，逐步逼近优化函数目标。

其中损失函数分为指数函数，平法损失函数及一般式。

AdaBoost 提升算法具体过程：

先介绍提升算法，之后证明如何用前向分步算法推倒提升算法。

AdaBoost: 通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类性能。

问题：

1. 如何改变训练权重及概率分布？

提高前一轮弱分类器分类错误样本权值，降低被正确分类样本权值。如此，加大误分类数据关注度。

2．如何将弱分类器组合成强分类器？

加权多数表决，加大误差率小的弱分类器取值，使其在表决中起较大作用。

算法实现过程：

说明：

1. 第一步。初始化权值分布，假设权值均匀分布。

2. 反复学习，m为迭代次数。

（a）由初始化的权值分布得到初始分类器。

（b）计算误差率。

（c）为基本分类器G_m(x)的重要程度，其随着e_m的减小而增大，所以误差率越小。其所占权重越大(用于最终加权表决中)

（d） W_m+1,i权重分布。正确分类/误分类=e^-2α，及前面说的提高误分类样本权重。

3.最后得到最终分类器，其为基本分类器的线性组合，系数表示其重要程度。

AdaBoost关键部分代码实现（参考机器学习实战）

 1 def stumpclassify(datamatrix,dimen,threshval,threshinq): #  对数据进行分类，采用输出扰动方法，提升基学习器之间的多样性
 2     retarray=ones((shape(datamatrix)[0],1))
 3     if threshinq=='lt':
 4         retarray[datamatrix[:,dimen]<=threshval]=-1
 5     else:
 6         retarray[datamatrix[:,dimen]>threshval]=-1
 7     return retarray
 8 def buildstump(dataarr,classlabels,D):   ##构建回归树桩  D为每一轮权值
 9     datamatrix=mat(dataarr)
10     classlabelvec=mat(classlabels)
11     m,n=shape(datamatrix)
12     beststump={}
13     stumpclass=mat(zeros((m,1)))
14     stepnum=10.0
15     minerror = inf
16     for i in range(n):
17         datamax=datamatrix[:,i].max()
18         datamin=datamatrix[:,i].min()
19         steprange=datamax-datamin
20         stepsize=steprange/stepnum
21         for j in range(-1,int(stepnum)+1):    ##进行分类，具体方式参加决策树一章。自我理解通过输入参数扰动等方法增加基分类器的多样性，提高最终分类器性能
22            for ineq in ['lt','gt']:                         
23                 threshval=datamin+stepsize*j
24                 retarray=stumpclassify(datamatrix,i,threshval,ineq)
25                 error=mat(ones((m,1)))
26                 error[retarray==classlabelvec]=0
27                 weighterror=D.T*error
28                 if weighterror<minerror:
29                     minerror=weighterror
30                     beststump['ineq']=ineq
31                     beststump['threshval']=threshval
32                     beststump['dim']=i
33                     stumpclass=retarray
34     return beststump,minerror,stumpclass
35 def adaboosttrainsds(dataarr,classlabels,numit=40):  ##更新系数过程
36     weakclassast=[]
37     m=shape(dataarr)[0]
38     D=mat(ones((m,1))/m)
39     aggclassest=mat(zeros((m,1)))
40     for i in range(numit):
41         beststump,error,stumpclass=buildstump(dataarr,classlabels,D)  ##得到基分类器
42         alpha=float((0.5*log((1.0-error)/max(error,1e-16))))          ##计算α值
43         beststump['alpha']=alpha
44         weakclassast.append(beststump)
45         expon=multiply(-1*alpha*mat(classlabels).T,stumpclass)
46         D=multiply(D,exp(expon))
47         D=D/D.sum()                                                     ##得到更新后的权值  w
48         aggclassest+=alpha*stumpclass
49         aggerror=multiply(sign(aggclassest)!=mat(classlabels).T,ones((m,1)))      ##计算累计错误
50         errorat=aggerror=aggerror.sum()/m
51         if errorat==0.0:                                                       ##错误率为0时停止循环
52             break
53     return weakclassast