模型融合---为什么说bagging是减少variance，而boosting是减少bias?

posted @ 2019-07-10 16:51 nxf_rabbit75 阅读(1088) 评论(0) 编辑收藏举报

分类: 机器学习优化

undefined

1.bagging减少variance

Bagging对样本重采样，对每一重采样得到的子样本集训练一个模型，最后取平均。由于子样本集的相似性以及使用的是同种模型，因此各模型有近似相等的bias和variance（事实上，各模型的分布也近似相同，但不独立），所以bagging后的bias和单个子模型的接近，一般来说不能显著降低bias。

若各模型独立，则 $var(\sum_{i=1}^{n}{X_i}/n)=var({X_i})/n$

若各模型完全相等，则 $var(\sum_{i=1}^{n}{X_i}/n)=var({X_i})$

此时不会降低variance。bagging方法得到的各子模型是有一定相关性的，属于上面两个极端状况的中间态，因此可以一定程度降低variance。为了进一步降低variance，Random forest通过随机选取变量子集做拟合的方式de-correlated了各子模型（树），使得variance进一步降低。

2.boosting减少bias

boosting从优化角度来看，是用forward-stagewise这种贪心法去最小化损失函数。 $L(y,\sum_{i=1}^{n}{a_if_{i}(x)})$

例如，常见的AdaBoost即等价于用这种方法最小化exponential loss： $L(y,f(x))=exp(-yf(x))$ 。

所谓forward-stagewise，就是在迭代的第n步，求解新的子模型f(x)及步长a（或者叫组合系数），来最小化 $L(y,f_{n-1}(x)+af(x))$ ，这里 $f_{n-1}(x)$ 是前n-1步得到的子模型的和。因此boosting是在sequential地最小化损失函数，其bias自然逐步下降。但由于是采取这种sequential、adaptive的策略，各子模型之间是强相关的，于是子模型之和并不能显著降低variance。所以说boosting主要还是靠降低bias来提升预测精度。