树模型之Bagging总结

Bagging vs. Boosting

Bagging和Boosting是树模型集成的两种典型方式。Bagging集成随机挑选样本和特征训练不同树，每棵树尽可能深，达到最高的精度。依靠小偏差收敛到理想的准确率。Boosting算法注重迭代构建一系列分类器, 每次分类都将上一次分错的样本的权重提高，依靠弱模型和多次迭代达到最高精度。

为什么Bagging模型使用强模型?
bagging的方式要求有大量的模型,模型越多效果的方差越小, 结果越接近平均水平, 所以只要保证单个模型的偏差就可以保证整体效果, 所以要求单模型的性能越强越好.
为什么Boosting 使用弱模型?
Boosting模型都针对分错的样本进行优化,所以每个基分类器的准确率是能够得到保证的也就是说偏差较小, 所以只要保证方差小就可以保证整体效果. 如果是强模型的话,基分类器的个数越多,方差越大. 但是弱分类的方差会稍微比强基分类器的方差小一点.

RandomForest是一种典型的bagging集成算法。训练时，针对样本，会随机抽取不同的样本和特征训练不剪枝的CART树，一直训练到达到预定义的基分类器个数。对于输出，针对分类问题，预测结果是各个基分类器的投票，针对回归问题，预测结果是各个分类器的输出结果的平均值。

耗时耗内存:每个基分类器的准确率不是很高，所以要求有大量的基分类器才能取得良好的效果，分界线是100，所以整体的训练时间很长，一般适合小数据训练

主要调节树的棵树和深度、选择样本和特征的比例

posted @ 2020-02-29 14:38 小小小的程序猿阅读(1353) 评论(0) 编辑收藏举报

刷新页面返回顶部