机器学习因子:在线性因子模型中捕捉非线性
本文由BigQuant翻译来自于MSCI研究,原文标题为《机器学习因子:在线性因子模型中捕捉非线性》
作者:George Bonne, Jun Wang, Howard Zhang
发表时间:2021年3月
概要
虽然机器学习(机器学习)算法已经存在了几十年,但最近它们在包括金融在内的许多领域受到了越来越多的关注,尤其是在解释资产回报的应用上。虽然线性因子模型多年来一直是理解风险敞口、风险和投资组合表现的重要工具,但没有哪一种模型是一成不变的,即因子敞口和回报之间的关系必须是线性的。
在这里,我们研究了在去除线性成分后,机器学习算法在多大程度上可以检测因子暴露和安全回报之间的关系中的显著非线性和相互作用。 通过使用简单的技术,我们之前证明了因子风险敞口和回报之间可能存在非线性关系,特别是在波动的市场条件下,动量和流动性因子(Wang, Yao和Bonne, 2020)。
在这项研究中,我们发现机器学习算法可以识别非线性关系,并可以用来构建一个具有显著解释力的因子。我们还确定了几个关键因子,它们显著影响机器学习算法解释安全回报横截面的能力,包括输入和因变量的标准化,以及将许多机器学习模型的输出平均到一个集成中。
为了深入了解机器学习算法识别出的关系,我们检查了部分依赖曲线(dependence curves)、特征重要性和交互效应。我们发现流动性和动量因子对机器学习模型的输出影响最大,并且它们的影响也与我们之前的研究一致。此外,我们发现因子之间的交互作用对机器学习模型的输出有显著影响。
我们在MSCI Barra全球股票交易模型(GEMTR, Morozov et al., 2016)中评估了我们的机器学习因子作为附加因子,发现在1998-2020全样本期间,它生成了所有GEMTR类型中最强的信息比率(IR)和因子回报。我们假设机器学习因子的强而一致的表现是由在一个因子中捕获许多小型非线性效应的多样化收益驱动的。
我们认为,使用机器学习技术构建的因素可能对只做多和多做空组合的组合构建过程有价值,并将帮助投资者理解和捕捉对业绩的非线性和交互影响。
介绍
多年来,线性因子模型被广泛用于理解投资组合风险和回报(Rosenberg, 1974)。这类模型中的大多数因子,如GEMTR,都是基于基本和直观的公司特征构建的,如行业成员、估值或其他财务比率、价格回报或波动性,甚至是基本指标的非线性转换(例如,对数或立方)。其他因子是用统计技术构建的,如主成分分析,但缺乏直观的解释。然后将产生的因子合并到一个线性模型中,该模型假设因子暴露和回报之间的关系是线性的。这种假设允许一个非常可解释和计算效率高的模型,但可能无法捕捉到非线性关系或因子之间的相互作用。
机器学习算法擅长拟合复杂的关系和变量之间的相互作用,它们也已经存在了几十年。例如,Breman(1984)描述了一般的基于树的方法,这些方法后来通过套袋和助推等技术得到了增强(Friedman, 2001)。第一个人工神经网络是由心理学家Frank Rosenblatt在1958年发明的,这些算法在图像识别、蛋白质折叠(protein folding)和语言翻译等多个领域都取得了成功。最近,人们对机器学习在金融领域的应用产生了浓厚的兴趣,尤其是在资产回报方面。例如,见Gu, Kelly and Xiu (2020);Dixon and Polson (2019);和Aw, Jiang and Jiang(2019)。
然而,如果所使用的数据包含很少的信号和大量的噪声,就像资产回报的情况一样,机器学习在拟合复杂模式方面的优势也可能是一个弱点。在这种情况下,机器学习模型最终可能会拟合更多的噪声而不是信号。然而,Lopez de Prado(2018)和Rasekhschaffe(2019)等人提出了在金融应用中使用机器学习同时最小化过拟合风险的框架和最佳实践。我们在研究中使用了许多这样的技术。
与Rasekhschaffe(2019)一致,我们的研究还表明,在应用于资产回报的机器学习模型取得的成功水平上,有一些细微差别可以发挥重要作用。这些细微差别包括特征工程(对原始输入特征进行标准化或转换)、因变量的标准化或分组,以及多个机器学习模型预测的集合平均。
机器学习技术的另一个缺陷是它们的黑箱特性。一个新的可解释机器学习领域已经出现,以减轻这一缺点。Li(2020)在汇率预测研究中利用可解释机器学习技术对模型进行分解,预测分为线性、非线性和相互作用分量。我们使用类似的方法来查看黑箱内部。
在使用机器学习识别非线性关系的过程中,我们研究了在多个维度上训练的各种机器学习模型的敏感性,这些维度包括复杂性参数、输入特征的重要性、因变量的比例、训练窗口和集成方法。在接下来的章节中,我们将检查这些敏感性以及产生的机器学习因子的性能,它们的稳定性以及与传统因子的相关性。
方法
我们的基线框架使用GEMTR的22种风格因子暴露作为机器学习算法的输入特征(注:参见Morozov等人2016年对GEMTR中所有22种风格因子的完整描述)。 风格因子暴露均标准化,约为[- 3,3](注:我们在每个日期对每个因子进行横截面标准化,方法是减去市值加权平均值,并除以剔除离群值后的MSCI ACWI IMI指数中所有股票的等加权标准差。)。我们还探讨了添加更多输入特征的影响,如行业和国家因子暴露和额外的风格因子或描述符(因子的构建块)。因变量设为下个月的标准化专项收益,即考虑各因子线性贡献后的收益。换句话说,我们训练一个机器学习模型来预测下个月的具体回报,使用风格因子暴露作为输入。因此,我们明确地指导机器学习模型捕捉线性模型在其残差中留下的非线性关系。这与其他研究有显著差异,其他研究多以总回报作为因变量。我们的框架允许我们保持线性模型和因子的可解释性,同时利用机器学习仅捕捉线性模型错过的非线性和交互影响。在数学上,我们的机器学习因子可以表示基本线性因子模型方程:
𝑅 = 𝑋𝑓 + 𝜀
其中,R为股票收益向量,X为所有股票的因子敞口矩阵,f为回归估计的因子收益向量,ε为股票特定收益向量。我们的机器学习因子是一个复杂的非线性函数,G()的所有风格因子暴露(X),旨在解释ε。因此,
𝜀 = 𝐺(𝑋)𝑔 + 𝜀′
其中G(X)是我们的机器学习因子敞口,G是机器学习因子收益,ε '是新的特定收益。结合这两个方程,我们得到:
𝑅 = 𝑋𝑓 + 𝐺(𝑋)𝑔 + 𝜀′
虽然描述的框架使用特定回报作为因变量,我们也探索了因变量的其他变量-总回报vs.特定回报和标准化回报vs.原始回报-发现我们的结果严重依赖于因变量的标准化。与使用原始回报相比,我们在对因变量进行横向标准化后取得了非常优越的表现。在使用标准化的特定回报与标准化的原始回报时,我们也取得了适度的更好的表现。这些发现与我们的直觉一致,因为我们的目标是识别线性因子模型没有捕捉到的回报成分。为简洁起见,所有的结果都是在回归模式下使用机器学习算法以标准化比收益作为因变量得到的。
我们的完整样本期是1995年1月至2020年12月,我们将其分为两个部分——1995年1月至2007年12月用于模型调优,2008年1月至2020年12月用于测试。我们在一个“向前走walk forward””框架中进行了调优和测试,在这个框架中,我们在一组固定回顾时期(5年)的跟踪数据上训练了一个模型,并对下一个“向前走walk forward”时期(2年)进行了预测。然后我们将模型向前推进,在新的跟踪数据集上进行训练,对下一步进行预测,等等。我们将模型在给定时期内的所有预测串联起来,将这些预测视为一个新的因子,并在单变量十分位组合框架和多变量框架中评估它们的表现,在多变量框架中我们将机器学习因子添加到GEMTR中的其他因子中。
我们测试的机器学习算法包括增强树(boosted trees),随机森林和神经网络,因为它们在预测问题中普遍流行。我们在附录中提供了对每个和其他机器学习术语的简要描述。对于更详细的解释,我们推荐有兴趣的读者阅读Hastie, Tibshirani和Friedman(2009),他们描述了我们使用的所有机器学习方法以及其他方法,都非常详细。
我们在步进框架中对训练数据样本进行了机器学习算法的优化。对于增强树(boosted trees),我们调整了学习率、树的深度和树的数量。对于随机森林,我们调整了树的深度、给定树节点上允许使用的特征的比例和树的数量。对于神经网络,我们调整了网络的大小(隐藏层和节点的数量)、学习率和激活函数。
实验结果
机器学习算法比较
我们在前进框架中评估了三种机器学习算法,训练数据的五年回测窗口和每两年重新训练模型。在下面的表1中,我们展示了由信息系数衡量的性能 (IC:信息系数定义为信号(机器学习模型预测)与下个月股票收益的等级相关性。它衡量的是信号区分未来表现出色和表现不佳者的能力。)的结果预测。对于每个学习算法,我们将性能绘制为一个主要的调优或复杂度参数的函数,通过给定算法评估的最小复杂度标准化,将它们置于可比的尺度上。因为我们观察到在我们评估的所有复杂度水平上的正性能,我们还展示了每个算法的集成模型的性能,这只是每个模型在复杂度等于或低于给定模型的情况下的预测的等加权平均值。
图1:机器学习模型性能与模型复杂性
我们做了一些有趣的观察。
首先,我们看到,当我们将更多模型的输出平均在一起时,即使单个模型的性能开始随着复杂性的增加而大幅下降,集成模型的性能也只是略有改善或下降。
其次,我们观察到每种算法在各种复杂程度的模型中都有积极和相似的性能。
第三,我们发现神经网络产生了最强的性能。
为了将集成的概念更进一步,我们创建了一个集成的集成—三个算法平均值的平均值的平均值。在下面的表2中,我们绘制了每个算法的集合以及集合的集合随时间的性能。我们看到集合的集合表现与神经网络的集合相似,年化十分位数分布约18%。
图2:集成机器学习模型性能
考虑到不同算法的性能有些相似,一个很自然的问题是“它们的预测有多相似?”要回答这个问题,请看第三个例子检验模型预测的平均横截面相关性。(机器学习模型预测被视为原始机器学习因子暴露。) 从中我们可以看出,不同模型的预测在相同算法和不同算法之间是多么相似。我们看到,大多数算法内相关性只有0.35到0.55,这可能低于人们可能预期的,考虑到相对相似的形状的性能曲线观察到的表2。十分位扩散收益的时间序列相关性在神经网络和基于树的集合之间为~0.73,在不同的基于树的集合之间为0.93。事实上,算法内部的横截面相关性是适度的,但每个模型都有相似的性能,这表明一个集成可以增加价值。我们怀疑,考虑到预测安全收益时的低信噪比,每个模型可能会拾取相似的信号但不同的随机噪声。通过采用集合,我们可以平均和抑制噪声(减少方差),但增强信号,从而改善模型性能。
表3:机器学习预测的相关性
模型的稳定性
我们通过机器学习模型预测暴露量的逐月自相关来衡量模型的稳定性。在我们的训练样本期间,作为机器学习模型输入的GEMTR样式因子的月与月平均自相关性为0.83。我们从下面的附录4的附录2中绘制了每个学习算法的集成模型的稳定性。我们从中观察到最低的稳定性为随机森林模型,最高来自增强树,神经网络仅略低于增强的树木。每个模型每两年重新训练一次,在所有机器学习算法中,我们看到每个月的再训练日期的自相关性大幅下降。
尽管在训练集内有很大的波动,但我们没有观察到在那些日期的表现有显著的变化。我们怀疑每个样本包含真实信号和随机噪声的组合,每个机器学习模型拟合两者的组合。每个样本的噪声都在变化,但信号更稳定。结果,我们看到了集成平均的显著改进,因为集成可以平均并减少预测中的噪声或方差,并提高性能。 正如Rasekhschaffe(2019)所建议的,我们还发现,通过创建一个集合,其单个模型在不同的日期、不同的频率和/或不同的回视周期进行再训练,可以极大地减少再训练日期的不稳定性。
表4:机器学习因子暴露稳定性
内窥黑箱
机器学习算法的一个缺点是它们的黑箱性质。然而,有一些技术,如部分依赖和特性重要性,让我们能够在黑盒子内部找到一些线索。具体地说,我们在标准方法:将预测响应作为给定输入值的函数,对其他所有输入值取平均值。(有关部分依赖和在python的scikit-learn包中的实现的描述,请参阅 https://scikit-learn.org/stable/modules/partial_dependence.ht机器学习)为了便于不同机器学习算法之间的比较,并符合Greenwell(2018)提出的框架,我们定义了给定输入的特征重要性度量,即机器学习模型部分依赖曲线输出的范围(最大-最小)。我们在表5中展示了这三种算法的特征重要性。我们看到动量和流动性是这三种算法中最重要的。我们还注意到,根据特征重要性,短期逆转是前10名中唯一的高换手因子,这表明仅使用低换手因子作为输入,就可以创建几乎具有相同性能的低换手机器学习因子。(高成交量因子包括短期反转、季节性、行业势头、新闻情绪、分析师情绪和空头收益。) 我们还看到,技术因子(基于价格和交易活动的因子)是最重要的,而基本面因子则不那么重要。 特征重要向量的相关性很高(如下面的表6所示),表明算法检测到类似的效果。令人惊讶的是,特性重要性相关性最低的是两个基于树的方法,尽管这两个方法在表2中生成了最相似的性能。
表5 .因子重要性
表6:因子重要性的相关性
为了便于阅读,在表7中,我们仅展示了神经网络模型的前10个输入的部分依赖曲线,这是根据它们的特征重要性度量的。
**展示7:神经网络模型的**Partial Dependence
我们还注意到,流动性和动量这两个最重要特征的形状与我们在特定回报与因子敞口的简单单变量研究中观察到的一致(Wang, 2020)。例如,从表7中可以看出,机器学习算法发现,具有非常高(>2)动量敞口的股票比线性模型预期的表现更好(高出0.15到0.20个标准差),而具有非常高流动性敞口的股票表现比线性模型预期的表现更差。 为了衡量算法之间的一致性,我们检验了流动性和动量的部分依赖性(Partial Dependence)。如表8所示,我们观察到在所有三种算法中,这两个因子的部分依赖曲线具有一致的模式。我们还注意到,基于树的模型的曲线明显不如神经网络模型的曲线平滑,这是可以理解的,考虑到模型的功能形式。
表8:三个模型中,流动性和动量的Partial Dependence
表现最好的单模型来自于表1:24节点神经网络模型,800棵树的随机森林模型,树深度为4的增强树模型。 总的来说,考虑到我们在表3中观察到的不同算法的预测之间相对较低的横截面相关性,特征重要性和部分依赖的高度相似性似乎令人惊讶。然而,我们怀疑这是进一步的证据,不同的算法识别相似的信号,但不同的噪声。我们还评估了在机器学习模型中添加更多投入的影响,如行业或国家因子。我们发现,行业和国家因子对产生的机器学习因子的影响不显著,它们的特征重要值非常低。我们还探索了在输入中添加其他因子或描述符时的差异,并将特征重要性尺度上的一些较强的因子(如流动性和剩余波动率)替换为它们的成分描述符,获得了更好的绩效。
因子相互作用
为了让更多的光线照进黑箱,我们接下来检查了因子之间的相互作用。通过特征的重要性和部分依赖性,我们看到了个体输入如何以及在多大程度上影响机器学习模型的输出。我们还希望了解输入之间的交互是否重要。例如,动量敞口的影响是否取决于敞口的规模?基于我们对特征重要性的定义,我们将交互强度定义为在考虑了单变量偏相关性后预测响应的范围(最大值-最小值)。换句话说,我们改变了两个输入的值,并测量了它们联合分布中的响应与没有交互作用时的预期响应的不同之处——如果它们的贡献与它们的贡献完全是线性相加的单变量偏相关曲线。有22个因子作为输入,有231(22*21/2)可能的双变量组合。在表9中,我们展示了由神经网络模型的交互效应度量指标测量的前20个双变量交互。我们看到交互强度值与特征重要性值具有可比性,这表明双变量交互与单变量输入本身一样重要。我们还看到了与具有强烈特征重要性的因子相关的最强交互作用,如动量、流动性和规模。在图10中,我们展示了这样一个强相互作用的例子——动量与大小。
表9 .关联强度
图10:动量-市值相互作用
从动量-规模的相互作用中,我们看到动量反应高度取决于敞口的规模,特别是当动量敞口非常负面时(换句话说,就是去年表现糟糕的股票)。对于具有负动量敞口的小盘股,机器学习模型预测它们在下个月的表现将比其低动量敞口和其他因子敞口(红框内区域)的预期更差。相比之下,该模型估计,在过去一年中表现明显欠佳的大盘股将从它们的因子敞口(灰色框内区域)中反弹,幅度超过预期。一种解释可能是更大的资源和产品的多样性是一个大公司更容易转身后一年的表现不佳,但小公司的有限的资源和较小的产品功能变得更加困难,跌倒后重新站起来。
样本外表现
在这里,我们使用与之前相同的框架来检查样本外的表现——使用GEMTR风格因子暴露作为输入,我们训练了一个机器学习模型来预测下个月的标准化特定回报,使用过去五年的数据。为了简单起见,我们在这里重点讨论神经网络模型。我们构建了10个不同复杂度的神经网络模型,包含16到48个隐藏节点和不同的再训练频率,从3个月到29个月,以减轻再训练日期的不稳定性和更替(注:这套模型包含10个模型,每个模型有16、24、32、40和48个节点,在一个单一的隐藏层中,每3、4、5、7、11、13、17、19、23和29个月进行一次训练,并有5年的回顾训练期。)。7 我们平均了10个模型的预测,并将结果作为一个新的因子来处理。我们在标准的单变量十分位组合框架中检查了新的机器学习因子的特征和性能,并将该因子插入GEMTR中,以评估其在GEMTR中所有其他因子之上对解释能力的边际贡献。在下面的表11中,我们展示了机器学习因子暴露与其他GEMTR类型因子的平均横截面相关性。
图11:机器学习因子暴露与GEMTR风格的平均相关性_**
我们看到,平均而言,相关性接近于零。在图12中,我们展示了4个平均幅度相关性最大的因子之间的相关性如何随时间变化。出于好奇,我们还添加了动量和贝塔,这两个因子的相关性随时间变化很大,尽管它们的平均值接近于零。与动量和贝塔的相关性是可变的,但平均接近于零,而其他的,如剩余波动率和流动性具有更一致的负相关,收益收益率和规模具有较小的一致的正相关。
图12:机器学习因子暴露与选择GEMTR风格随时间的相关性
我们还评估了集成神经网络机器学习因子在整个样本周期的性能。在表13中,我们展示了在整个样本期内等权重十分位组合和上-下十分位组合的表现。我们看到十分位组合的表现从十分位1单调地增加到十分位10,尽管有一种趋势是底部十分位的表现比顶部十分位的表现要好。大部分性能来自极端十分位数,这可能是线性模型无法捕捉到的。在2008 - 2020年的样本外时期,十分位差显著大于样本内时期(19.7%)(34.4%的复合年化收益率)。
图13:机器学习因子的全样本十分位数投资组合表现
我们还在一个多变量框架中评估了性能,在这个框架中,我们将机器学习因子添加到GEMTR模型中,并测量了其因子回报和对模型解释力的贡献。在表14中,我们展示了累积因子回报。我们在样本内和样本外时期都看到了强劲的表现,尽管因子回报在样本内时期更强。在表15中,我们
显示在GEMTR中所有样式因子的机器学习因子在整个样本期间的因子统计。在此期间,机器学习因子的IR和因子回报是GEMTR中任何因子中最高的,尽管它对解释能力的贡献由交叉验证的R测量2 (简历R2 在23个因子中排名第七。机器学习因子的挥发性较低,有助于提高其IR。总的来说,因子统计表明机器学习因子具有一些更像alpha的特征,一些更像传统的危险因子。我们假设它是一个有回报的因子,因为它捕捉了许多非线性关系,每一个微妙的、难以识别和捕捉的自身,但当加在一起产生一个强大的组合。类似地,我们假设,表14中所示的几乎“太好了”的表现是由捕捉许多非线性效应的多样化收益驱动的,其中每一个效应本身都很小,但当结合到一个因子中时,就会产生强大和一致的表现。
表14:机器学习因子的全样本多变量因子回归
图表15:GEMTR风格和机器学习因子的因子统计
结论
在我们之前的工作(Wang, 2020)中,我们发现在某些市场条件下,风格因子暴露与回报之间的关系存在轻微的非线性,尤其是动量和流动性。在这项研究中,我们发现机器学习算法还可以识别线性因子模型没有捕捉到的因子暴露和安全回报之间的关系中的非线性。此外,不同的学习算法似乎在很大程度上捕捉了相同的非线性关系,他们发现的关系与我们之前使用简单技术观察到的关系是一致的。在这里,我们使用解释性机器学习的方法来了解机器学习模型捕获的重要关系。我们再次发现,从单因子的角度来看,动量和流动性是最重要的因子。双因子的相互作用,特别是动量、流动性和其他几个强有力的因子,如贝塔和规模,也是机器学习模型预测的重要因子。
我们发现机器学习模型可以用来创建一个因子,为安全回报的横截面增加适度的解释力量。所得到的机器学习因子与GEMTR中已有的风格因子相关性较低,所有风格因子中IR和因子回报最高。
此外,我们发现标准化因变量和集合平均等技术显著地提高了因子的性能。集合平均和在不同日期对集合中的模型进行重新训练,也使得该因子对机器学习模型的复杂性参数不那么敏感,而且从一个时期到下一个时期更稳定。 我们认为,使用机器学习技术构建的这些因子可能是投资者投资组合构建过程中有价值的补充。
注释
文中依赖指的是Partial Dependence ,用来度量单个因子对模型预测效果的边际影响,具体做法针对一个已经训练好的模型,每一次,把所有股票的某个因子(需要度量的因子)设为一个固定的值,然后对所有预测结果计算平均值(作者这里计算的标准差),接下来,改变因子的值,再计算一般,按固定间隔遍历该因子所有可能的取值。 Feature Importance ,定义为因子Partial Depedence的变动范围(最大值-最小值)。
神经网络——也被称为人工神经网络,这种机器学习算法松散地基于动物大脑中神经元的功能和连接。神经网络由一组排列在一层或多层的“神经元”或节点组成。第一层神经元与输入变量相连,并产生一个输出,该输出是其总输入的函数,或通过“激活”函数进行转换,通常是分段线性(如ReLU)、sigmoid或类似的函数。如果神经元的输入超过某个阈值,它就会“触发”或产生输出。根据网络中有多少层神经元,第一层神经元的输出可以作为第二层神经元的输入,或者在单层网络的情况下,聚合产生网络的最终响应或预测。深层神经网络包含两层或多层神经元。给定网络中足够的复杂性(节点和层),神经网络可以适应任何复杂函数。神经网络对输入变量和输入或因变量中的异常值的比例非常敏感。神经网络的重要参数是节点数、层数、学习率和激活函数。
决策树——也称为二叉决策树,这是一个学习算法基于连续分裂的数据集,在算法将输入空间分为一组矩形,并且每个分裂(决策节点树)是基于一个输入变量的值。每次分割的选择都是为了对所选的损失函数做出最大的改进,这使得算法“贪婪”,因为在每次分割时它只选择在那一点上看起来最好的。对新数据点的预测是通过在树的每个节点上遵循决策规则,直到树的终端叶子结束。在给定的终端叶中,任何数据点的预测都是由一个简单的函数给出的,通常只是一个常数,由该叶中的训练数据的平均值给出。因此,简单决策树的函数形式是所有分段常数函数的集合。基于决策树的算法(如随机森林和增强树)的理想特性是,决策树无缝地处理所有类型的变量(类别、秩或连续实值),并且算法对单调的转换(如输入变量的缩放)不变。因此,输入数据中的异常值是没有问题的。单个的、小的决策树也很容易解释。缺点是单决策树容易过拟合,方差高,与其他算法相比,样本外性能普遍较差。提振(用于提振树木)和套袋(用于随机森林)是通过组合许多树木来提高性能的技术——通过提振串联或通过并行装袋。将许多决策树组合在一起通常会显著提高它们的预测精度,但牺牲了单个(小)决策树的简单可解释性。
增强树——也称为梯度增强树,这是一种基于决策树的机器学习算法,由一组小决策树组成,每一棵决策树都是弱的或“基础”学习者。该模型以迭代的方式对数据进行拟合,每次一个基本的学习器,每个学习器都拟合上一个迭代的残差或错误。这个迭代过程称为助推。在这样做的过程中,算法沿着给定损失函数的梯度移动,并从许多弱学习器中创建一个强学习器。增强树的重要复杂性参数是学习速率、基学习器数量和每个基学习器的大小。学习率决定了每个基础学习者在每次迭代中可以修改整个模型的程度。较慢的学习速度通常会创建更健壮的模型,但需要更多的时间来训练,因为需要更多的基础学习者。随机森林模型通常不会随着树的数量增加而过度拟合,而增强树模型则不同,如果使用的树太多,就会过度拟合。
随机森林-一种基于树的学习算法,在一个称为“套袋bagging”的过程中对许多大型决策树的预测进行平均。“每棵大树都是通过训练数据的随机引导样本(样本随机性)生成的,重要的是,训练数据的每次分割只允许在输入变量的随机选择上发生(特征随机性)。如果有p个输入变量,通常允许在任何给定分割中使用p/3或p1/2的输入,并为每个分割选择不同的随机集。如果只允许在每次分割时使用随机选择的输入,那么生成的树将比允许在每次分割时使用所有变量的树更不同。这种特征的随机性减少了最终树木集合的方差。随机森林模型的重要参数包括每棵树的大小、树的数量、每个引导样本的大小以及每次分裂所允许的特征的比例。与增强的树不同,随机森林模型一般不会随着树的数量增加而过拟合,但精度会渐近。