关键参数:特征子集的选择数量 m
在构建随机森林时的一个关键参数:特征子集的选择数量 m。在随机森林中,每次分裂节点时都是从当前节点的 m 个特征子集中选择最优的特征来进行分裂。这种特征选择的方式有助于引入随机性,增加模型的多样性,提高整体模型的泛化性能。
让我们逐步解释这段话中的关键概念:
-
每个样本的特征维度为 M:
- 假设我们有一个包含 M 个特征的数据集,每个样本都有 M 维特征。
-
指定一个常数 m<<M:
- 我们指定一个常数 m,其中 m 远远小于 M。这表示我们不会在每个节点上都考虑所有的特征,而是只考虑一个较小的特征子集。
-
随机地从 M 个特征中选取 m 个特征子集(不放回):
- 在每个节点分裂时,我们随机地从总共 M 个特征中选择 m 个特征子集,且是无放回地选择。这意味着在同一个节点上,不同的决策树可能使用不同的特征子集进行分裂。
-
每次树进行分裂时,从这 m 个特征中选择最优的,通常M的平方根:
- 在每次分裂节点时,从这 m 个特征子集中选择最优的特征来进行分裂。通常,经验上选择 m 为总特征数目 M 的平方根是一种常见的做法。
-
减小特征选择个数 m,树的相关性和分类能力也会相应的降低;增大 m,两者也会随之增大:
- 当选择的特征子集数量 m 较小时,每个决策树的特征选择都较为独立,导致每个树都是相对独立的,模型的多样性增加。但同时,由于每个树的随机性增加,可能降低了模型的分类能力。
- 当选择的特征子集数量 m 较大时,每个决策树的特征选择之间可能存在较大的重叠,导致树之间的相关性增加。这样一方面提高了模型的分类能力,但另一方面可能降低了模型的多样性。
-
关键问题是如何选择最优的 m(或者是范围):
- 选择最优的 m 是随机森林中的一个关键问题。这通常需要通过交叉验证或其他模型选择技术来确定。通常,可以尝试不同的 m 值,选择在验证集上表现最好的 m。
总体而言,调整 m 的值可以在增加模型的多样性和增加模型的分类能力之间进行权衡。选择适当的 m 是随机森林模型调优的一个重要方面。