集成学习

bagging

数据集:有放回地随机抽取m个样本组成一个训练集
分类器:多个训练集生成多个分类器,这个过程可以并行
聚合:最终决策通过多个分类器投票表决产生

  • 多数表决的理论说明:(统计学习方法中用来分析最近邻的多数表决)
    若分类的损失函数为0-1损失函数,分类函数为

\[\it{f}: \mathbb{R}^n \rightarrow \{c_1,c_2,...,c_k\} \]

误分类的概率为

\[P\,(Y\neq\it{f}\,(X)) = 1 - P(Y = \it{f}\,(X)) \]

k个分类器投票表决的误分类概率

\[\frac{1}{k}\sum\limits_{x_i \in N_{\,k}(x)} I(y_i\neq c_j) = 1 - \frac{1}{k}\sum\limits_{x_i \in N_{\,k}(x)}I(y_i = c_j) \]

要使误分类率最小即经验风险最小,即使\(\sum\limits_{x_i \in N_{\,k}(x)}I(y_i = c_j)\)最大,所以多数表决规则等价于经验风险最小化

boosting

stacking

Ref:

《统计学习方法》

posted @ 2019-09-11 09:36  youqia  阅读(143)  评论(0编辑  收藏  举报