随机森林与极度随机化树-AI快速进阶系列
1. 简介
在本教程中,我们将回顾随机森林 (RF) 和极端随机树 (ET):它们是什么、它们的结构以及它们有何不同。
2. 定义
随机森林和极端随机树属于一类称为集成学习算法的算法。集成学习算法利用许多学习算法的强大功能来执行任务。例如,在分类任务中,集成学习算法可以聚合来自多个不同分类器的预测以进行最终预测。
这个概念是基于这样一种观念,即使用多种学习算法可以导致更好的最终预测。接下来,让我们详细看看随机森林和极端随机树。
3. 随机森林
当我们谈论随机森林时,我们指的是由多个决策树组成的学习算法。随机森林在训练期间针对训练数据的不同子集构建多个决策树(一个森林)。同样,想法仍然是一样的,几个组合树的结果可能比单个树的结果更好。
给定具有多个特征的数据集,RF 算法将从数据集中对具有不同特征的观测值子集进行采样。在此子集上构造决策树。这种使用替换对子集进行采样的过程称为引导。
请注意,在构建决策树时,RF 将在每个节点上选择最佳拆分。接下来,对具有不同特征的不同数据子集重复此过程,直到构建了指定数量的树。
从所有树中获得结果后,将通过多数投票进行分类或平均回归获得最终预测。例如,让我们考虑一个包含六棵树的 RF 分类任务。假设其中五棵树预测类 0。根据多数投票,最终类被分配为 0:

3.1. 优点和缺点
随机森林是健壮的,在回归和分类任务上都运行良好。此外,RF 算法适用于大型数据集和不同的数据类型,例如数字、二进制和分类。
但是,当树的数量较多时,复杂度和计算时间相对较高,导致训练时间较长。此外,子集的抽样可能会引入一些偏差。
3.2. 应用程序
射频几乎可以应用于任何分类或回归任务。但是,常见的应用领域是遥感、股票市场预测、欺诈预测、情绪分析和产品推荐。
4. 极度随机的树
极端随机树,也称为额外树,在整个数据集的训练期间构建多个树,如射频算法。在训练期间,ET 将在数据集中的每个观测值上构建树,但具有不同的特征子集。
需要注意的是,虽然 ET 的原始结构中没有实现引导,但我们可以在一些实现中添加它。此外,在构建每个决策树时,ET算法随机拆分节点。
4.1. 优点和缺点
额外树的主要优点是减少了偏差。这是在树的构建过程中从整个数据集中采样。数据的不同子集可能会在获得的结果中引入不同的偏差,因此额外树通过对整个数据集进行采样来防止这种情况。
额外树的另一个优点是它们减少了方差。这是决策树中节点随机拆分的结果,因此算法不受数据集中某些特征或模式的严重影响。
4.2. 应用程序
同样,我们可以将额外树应用于分类和回归任务,如随机森林。在某些情况下,额外树也用于功能选择。在这里,额外树分类器用于选择最重要的特征。
5. 异同
RF和ET的相似之处在于它们都构建了多个决策树以用于手头的任务,无论是分类还是回归。但是,两者之间存在细微的区别。
让我们看看这些:
6. 结论
在本教程中,我们回顾了随机森林和极端随机树。随机森林在数据的自举子集上构建多个决策树,而额外树算法在整个数据集上构建多个决策树。此外,RF 选择要拆分的最佳节点,而 ET 随机化节点拆分。
最重要的是,选择使用哪一个始终取决于可用的数据集和手头的任务。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧