关于Bagging

Bagging分为两种：Bagging和Pasting，前者是概率中的放回随机采样，后者是不放回随机采样；默认是放回采样随机；设置bootstrap=False即设置为不放回采样；默认bootstrap=True是放回采样。

对于Bagging（放回采样）有了一个问题，就是总有约37%的样本将不会被任何一个分类器抽中；37%的计算公式如下：

oob（out of bag)，就是使用者37%的样本来对分类器（回归其）进行评估；但是需要设置oob_score=True；另外对于这个参数的设置要注意，只能用于bootstrap=True的场景下；对于不放回采样其实也就不存在outofbag的情况。

bagging的原理就是利用一组样本，通过随机采样的方式来训练多个分类器（回归器），然后再判断的时候采用集体的力量来进行表决，就像抛硬币一样，当你观察了多组数据（每组抛1000次），你就会发现多组的平均趋势是比较合理的。Bagging默认的分类器是决策树，还可以是其他，但是没有研究。

posted on 2018-10-28 11:48 张叫兽的技术研究院阅读(584) 评论(0) 编辑收藏举报

刷新页面返回顶部

下士闻道