样本扰动和属性扰动
"扰动"指的是在集成学习过程中引入的随机性或不确定性。扰动的引入有助于增加模型的多样性,从而提高整体模型的泛化性能。在集成学习中,主要通过两种方式引入扰动:样本扰动和属性扰动。
-
样本扰动:
- 在Bagging(Bootstrap Aggregating)中,通过有放回地从原始训练集中随机抽样生成多个不同的训练子集,每个子集用于训练一个弱学习器。这样,每个弱学习器都在不同的样本集上进行训练,引入了样本级别的扰动,使得每个模型都关注于数据集中的不同样本。
-
属性扰动:
- 随机森林引入了属性扰动,即在决策树的每个节点分裂时,不是考虑所有特征,而是从所有特征中随机选择一个子集用于分裂决策。这就是说,每个节点的分裂不再依赖于所有特征,而是依赖于一个随机选择的特征子集。这样可以增加每个决策树之间的差异性,提高整个随机森林的多样性。
通过样本扰动和属性扰动,集成模型中的各个弱学习器变得不同,降低了模型的过拟合风险,提高了模型的泛化性能。这种扰动的引入使得集成模型更能适应不同的数据模式,从而更好地捕捉数据中的潜在关系。