1. 前言

到现在为止我们还剩一种集成学习的算法还没有涉及到，那就是Stacking。Stacking是一个与Bagging和Boosting都不一样的算法。它的主要突破点在如何集成之前的所有算法的结果，简单的说就是在弱学习器的基础上再套一个算法。

2. Stacking原理

Stacking是在弱学习器的基础上再套一个算法，用机器学习算法自动去结合之前的弱学习器。

Stacking方法中，我们把个体学习器叫做初级学习器，用于结合的学习器叫做次级学习器，次级学习器用于训练的数据叫做次级训练集。次级训练集是在训练集上用初级学习器得到的。

如下图所示：

数据集为\(D\)，样本数量为\(m\)，分为\(D_{train}\)和\(D_{test}\)。

Stacking的初级学习器有\(n\)种。
对每一个初级学习器进行以下处理。
1. 首先对\(D_{train}\)进行5-fold处理。
2. 用\(model_i\)进行5-fold训练，对验证集进行\(Predict\)。
3. 同时生成5个\(Predict_{test}\)。
4. 最后对输出进行整理。5个验证集的输出组合成次学习器的一个输入特征，5个\(Predict_{test}\)取平均
这样就组成了\(m*5\)的维度的次训练集和\(m*5\)维度的测试集，用次级学习器进行再次训练。

Stacking的思想也是非常的简单，但是有时候在机器学习中特征工程处理的好，简单的算法也能发挥强大的作用。

posted @ 2018-11-17 19:15 hyc339408769 阅读(6856) 评论(0) 编辑收藏举报

刷新页面返回顶部