样本扰动和属性扰动

"扰动"指的是在集成学习过程中引入的随机性或不确定性。扰动的引入有助于增加模型的多样性，从而提高整体模型的泛化性能。在集成学习中，主要通过两种方式引入扰动：样本扰动和属性扰动。

样本扰动：
- 在Bagging（Bootstrap Aggregating）中，通过有放回地从原始训练集中随机抽样生成多个不同的训练子集，每个子集用于训练一个弱学习器。这样，每个弱学习器都在不同的样本集上进行训练，引入了样本级别的扰动，使得每个模型都关注于数据集中的不同样本。
属性扰动：
- 随机森林引入了属性扰动，即在决策树的每个节点分裂时，不是考虑所有特征，而是从所有特征中随机选择一个子集用于分裂决策。这就是说，每个节点的分裂不再依赖于所有特征，而是依赖于一个随机选择的特征子集。这样可以增加每个决策树之间的差异性，提高整个随机森林的多样性。

通过样本扰动和属性扰动，集成模型中的各个弱学习器变得不同，降低了模型的过拟合风险，提高了模型的泛化性能。这种扰动的引入使得集成模型更能适应不同的数据模式，从而更好地捕捉数据中的潜在关系。

posted @ 2023-11-16 09:05 王哲MGG_AI 阅读(182) 评论(0) 编辑收藏举报

刷新页面返回顶部