集成学习方法

总结的很棒!

https://xijunlee.github.io/2017/06/03/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%80%BB%E7%BB%93/

 

 

1、随机森林

https://www.cnblogs.com/maybe2030/p/4585705.html

https://blog.csdn.net/login_sonata/article/details/73929426

一,随机森林

随机森林是一个用随机方式建立的,包含多个决策树的集成分类器。其输出的类别由各个树投票而定(如果是回归树则取平均)。假设样本总数为n,每个样本的特征数为a,则随机森林的生成过程如下:

  1. 从原始样本中采用有放回抽样的方法选取n个样本;
  2. 对n个样本选取a个特征中的随机k个,用建立决策树的方法获得最佳分割点;
  3. 重复m次,获得m个决策树;
  4. 对输入样例进行预测时,每个子树都产生一个结果,采用多数投票机制输出。

随机森林的随机性主要体现在两个方面:

  1. 数据集的随机选取:从原始的数据集中采取有放回的抽样(bagging),构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。
  2. 待选特征的随机选取:与数据集的随机选取类似,随机森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。

以上两个随机性能够使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能。

随机森林的优点:

  1. 实现简单,训练速度快,泛化能力强,可以并行实现,因为训练时树与树之间是相互独立的;
  2. 相比单一决策树,能学习到特征之间的相互影响,且不容易过拟合;
  3. 能处理高维数据(即特征很多),并且不用做特征选择,因为特征子集是随机选取的;
  4. 对于不平衡的数据集,可以平衡误差;
  5. 相比SVM,不是很怕特征缺失,因为待选特征也是随机选取;
  6. 训练完成后可以给出哪些特征比较重要。

随机森林的缺点:

  1. 在噪声过大的分类和回归问题还是容易过拟合;
  2. 相比于单一决策树,它的随机性让我们难以对模型进行解释。

2、adaboost

3、GBDT

https://zhuanlan.zhihu.com/p/29765582

 

参考文献:

http://www.ccs.neu.edu/home/vip/teach/MLcourse/4_boosting/slides/gradient_boosting.pdf

https://machinelearningmastery.com/gentle-introduction-gradient-boosting-algorithm-machine-learning/

http://blog.kaggle.com/2017/01/23/a-kaggle-master-explains-gradient-boosting/

http://wepon.me/files/gbdt.pdf

posted @ 2018-06-23 14:17  zhaop  阅读(273)  评论(0编辑  收藏  举报