外推模型选择指南
外推模型选择指南
当你不知道会发生什么时会发生什么。
回归是机器学习中最常用的技术之一。预测洪水或干旱地区未来的降雨量。分析弱势患者的心率变化。预测为必要的公共服务提供能源的电网的峰值能耗。这些例子的共同点是最大或最小预测值在所有情况下都是最重要的。对于环境政策制定者来说,能够预测平均降雨量的时间并没有什么好处。预测干旱或洪水时期可以挽救生命和财产。预测患者的峰值心率可以帮助医生治疗或更密切地监测高危患者。最后,确保能源生产与能源需求相匹配是极端事件期间必不可少的一项关键公共服务。
这些例子的另一个共同点是这些极端事件并不经常发生,因此难以预测。这些极端情况的建模称为外推。外推是“来自模型的预测,它是估计模型(例如,回归方程或贝叶斯层次模型)的投影、扩展或扩展,超出了用于拟合该模型的数据集范围”(Bartley 等人。 , 2019)。例如,公用事业公司如何预测能源使用量高于历史峰值消耗水平?外推比人们想象的更常见,并且可能发生在极端用例之外。 Facebook 的 AI 研究和纽约大学的一篇论文(包括 Yann LeCun)指出,在高维度(>100 个特征)中,“模型在训练集的凸包内的行为几乎不会影响该模型的泛化性能,因为新样本几乎肯定存在在那个凸包之外”(Balestriero 等人,2021 年)。这意味着,对于高维数据,我们测试集中新样本的特征值通常不在训练集的空间内,因此在测试期间通常会发生外推。
Figure 0.1
但是,外推可能会导致误导性结果,因为很难将预测扩展到我们数据中不存在的事件。虽然外推可能有风险,但很难避免。在一篇关于识别生态建模中的推断的论文中,作者指出:“虽然生态学家和其他科学家知道推断超出其数据范围的风险,但他们通常的任务是做出超出可用数据范围的预测,以努力了解广泛的过程”(Bartley 等人,2019 年)。
本文将讨论使用模型预测超出历史训练数据范围的目标值的场景。
在外推中,重要的是要了解模型失败的地方。在下面的分析中,我们将讨论外推示例,并解释与之前看到的数据的结果相比,哪些建模技术在外推集上表现最好。我们的目标是帮助指导您在遇到可能包括外推的问题时从哪里开始。
框架:
下面我们概述了加州大学欧文分校机器学习存储库中样本数据集提供的三个回归用例。对于每个用例,将构建四种不同的流行机器学习模型。这四个模型是:线性回归、随机森林回归、决策树回归和基于直方图的梯度提升回归。对于每个用例,我们将在训练集和测试集上测试模型的性能,并将其与外推集的性能进行比较。均方根误差 (RMSE) 是用于比较每个模型的预测的性能指标。在下表中,我们提供了更多详细信息,突出了每种模型的优缺点。
Figure 0.2
外推集
如上所述,当模型需要对已知或先前看到的分布之外的数据进行预测时,外推是必要的。在这三个用例中,已经捕获了完整的数据集。因此,我们需要确保模型在进行外推试验之前不会看到所有数据。为了实现这一点,我们使用常见的数据科学训练/测试/验证式拆分(有一个转折!)来生成外推区域。在测试不同的建模技术以确保外推的准确性时,我们首先在外推集中测试我们的模型之前在外推集中的分布上训练和测试我们的模型。模型经过迭代调整,以免过度拟合训练集。
下面的小提琴图显示了示例用例之一的目标变量的分布,以及创建的训练/测试和外推区域的分布。上图显示了数据的总分布,红点表示异常值。中间图显示了从该数据创建的训练和测试集,所有目标值均小于分布的 90ᵗʰ 百分位数。底部图显示了外推区域,由前 10% 的目标值创建而成¹。请注意,此示例数据集确实有许多大的异常值,因此外推区域代表极端外推的示例。
Figure 0.3
对于模型训练和测试,我们使用上面中间图中创建的训练和测试集的随机 75%/25% 拆分。这篇文章仅涵盖上述外推区域。此外,还进行了三个其他实验,以测试使用不同比例的数据进行训练/测试和外推的效果。这些实验的结果和结论可以在相关代码中找到。一探究竟! https://github.com/Tgiavatto/Extrapolation_model_experiments.git
假设
根据我们正在试验的模型的特征,我们怀疑线性回归在预测外推区域时与训练和测试区域相比将提供最低的性能下降。线性回归产生的线性模型在技术上是无界的(尽管没有为外推区域定义)。或者,基于树的模型只能对训练中看到的值进行预测(即,受训练的最大目标值限制)。线性回归可能并不总是在训练和测试区域中表现最好的模型,但它可能是通过牺牲最佳性能来避免外推区域中出现大误差的最明智的模型。
假设:与训练和测试区域相比,线性回归在预测外推区域时将提供最低的性能下降。
在以下部分中,我们提供了每个用例的概述和分析。我们还报告了在外推时哪种建模技术表现最好。
用例 1:交通数据
第一个用例的目标是预测明尼苏达州明尼阿波利斯-圣保罗 (Hogue) 的 94 号州际公路每小时的交通量。该数据集包括明尼苏达州交通部提供的交通数据和 OpenWeatherMap 提供的 2012-2018 年期间的天气数据。该数据集包含超过 48,000 条具有分类和数字特征的记录。分类数据描述了美国假期和一般天气描述。数字数据描述了测量的天气属性,例如温度和降水量。
我们为什么选择这个用例?
此用例演示了当特征集包含分类数据和数字数据时的推断。
如上所述,我们通过保留最大 10% 的目标值来创建外推集,并使用剩余的 90% 来训练和测试我们的数据。下面的小提琴图显示了整个数据集的分布以及用于外推的 10% 拆分¹。该数据集的目标变量没有任何大的异常值,因此我们的外推集将不包括远远超出训练和测试集的极端记录。
Figure 1.1
结果
在拟合模型之前,对数字特征进行了标准化,对分类特征进行了 One Hot Encoded。如下所示的拟合模型特征重要性图显示,所有模型中最具影响力的特征包括分类天气特征和星期几。
Figure 1.2
Figure 1.3
Figure 1.4
下面显示的图 1.5 显示了训练集、测试集和外推集的 RMSE 值。此图表显示,在这组模型中,性能存在显着差异。对于随机森林回归器 (RFR)、决策树回归器 (DTR) 和梯度提升回归器 (HGBR),RMSE 的训练和测试值都相似,而线性回归 (LR) 是性能最差的模型。
Figure 1.5
在预测外推区域时也是如此; RFR、DTR 和 HGBR 都具有非常相似的性能,而线性回归仍然是性能最差的模型。然而,相对而言,线性回归的建模性能下降是所分析模型中最小的。下面显示的图 1.6 显示了外推集模型的相对性能下降。线性回归的 RMSE 在外推区域中增加了不到 2.0 倍的测试集性能,而所有其他模型的 RMSE 增加了至少 2.6 倍。虽然线性回归在测试和外推区域中的 RMSE 值最高,但相对而言,它在外推中的性能下降最低。
Figure 1.6
Figure 1.7
外卖
此用例包括数字和分类特征。目标变量具有多峰分布并且没有严重偏斜。对一组外推数据进行预测,其中所有值都大于训练中看到的最大目标值。在这种情况下,在查看整体 RMSE 时,基于树的模型大大优于线性模型。
然而,当检查外推集的性能相对下降时,线性回归是最好的模型。 尽管基于树的模型继续表现最佳,但在此用例中,线性回归证实了我们的假设,因为它在预测未知数据时提供了最佳性能的折衷方案,以减少误差变化。
用例 2:自行车数据
下一个用例的目标是通过华盛顿特区的 Capital Bikeshare 计划 (Fanaee-T) 预测每小时租用自行车的数量。该数据集包括约 18,000 条记录,其中包含 2011 年至 2012 年的天气和季节性信息以及相应的每小时出租自行车数量。这还包括分类和数字特征。分类特征描述季节、节假日和天气类别。数字特征描述了注册用户的数量以及温度、湿度等天气指标。
我们为什么选择这个用例?
这是一个相关用例,作为当您的数据集混合了分类和数字特征时外推如何工作的另一个示例。 然而,这个用例和第一个用例之间的区别在于这个数据集包含许多高异常值,而第一个数据集没有。 因此,这个用例是从我们的训练和测试集中推断出比我们在第一个用例中看到的更多极端异常值的示例。
在下面的图 2.1 中,您可以看到整个数据集的分布以及用于外推的 10% 拆分。该数据集作为一个整体具有大量异常值,如上图中的红点所示¹。这是一个很好的用例示例,我们尝试使用训练和测试集来预测异常事件,其中包括目标值远低于我们试图预测的事件的记录。
Figure 2.1
结果
在拟合模型之前,对数字特征进行了标准化,对分类特征进行了 One Hot Encoded。在这个用例中,最有影响力的特征会随着建模技术的不同而略有变化。我们在过去 1 天、2 天和 3 天为临时用户和注册用户创建了一些历史滞后特征,看看这是否是未来表现的有力指标。线性回归将一天前的临时用户和注册用户的数量作为最有影响力的两个特征。线性回归还确定天气条件是重要特征(图 2.2)。
临时用户和注册用户的历史滞后特征也是基于树的模型的重要特征。它们都在前 6 个特征中,但不如线性回归有价值。随机森林和决策树决定了季节和天气特征更为重要(图 2.3 和 2.4)。
换句话说,线性模型强烈偏爱数字特征,其中基于树的模型可以同样好地使用数字列和分类列。这是预期的行为。
Figure 2.2
Figure 2.3
Figure 2.4
在下面的图 2.5 中,您可以看到基于树的模型在对我们的训练和测试集进行建模时更加准确。我们再次注意到线性回归是这个用例在训练和测试中表现最差的建模技术,RMSE 是我们其他三种建模技术的 1.5 倍以上。
Figure 2.5
比较我们的测试建模结果和我们的外推建模结果,我们再次看到 RMSE 大幅跃升。在测试我们的外推集时,我们继续将基于树的模型视为性能最佳的建模技术。然而,相对而言,线性回归在预测外推区域时建模性能的下降再次是模型中最小的,并且在这个用例中下降幅度很大。我们在下面的图 2.6 中看到,线性回归的 RMSE 在外推中增加了大约 4.6 倍测试集的性能,而所有基于树的模型都看到 RMSE 至少增加了测试集的 7.5 倍。虽然线性回归在测试和外推区域中绝对是表现最差的模型,但相对而言,它再次在外推中表现出最低的性能下降。
Figure 2.6
Figure 2.7
外卖
在外推集上检查模型性能时,所有模型都具有相似的性能。尽管交通(用例 1)和自行车(用例 2)用例的结构相似,但与基于树的模型相比,线性模型在此处的推断要好于交通用例。在此用例中,为什么线性模型的外推性能相对下降小于基于树的模型的一种可能解释是值的分布更加极端。如上所述,数据分布具有大量极端异常值,因此外推集中的目标值与我们的训练集中的已知分布相比,与之前的用例相比更远。这是有道理的,因为我们的直觉是,与线性关系中的基于树的模型相比,线性模型应该可以很好地推断。测试这一理论的一个有趣的实验是在训练/测试期间使用更少的数据,然后在外推区域评估模型性能。 (剧透警告:我们这样做了,结果在共享的 Git 存储库中)。
相对而言,与其训练和测试结果相比,线性回归在外推方面的表现优于其他模型。 因此,当我们可以假设线性关系并且我们的用例需要预测非常极端的异常值时,我们再次接受这样的假设,即线性回归与其在训练和测试中的结果相比,在外推中相对表现最好。
用例 3:超导
最后一个用例使用测量的超导体指标和超导体的化学公式来预测超导体临界温度水平 (Hamidieh)。该数据集由超导材料数据库提供,包括来自约 22,000 个超导体的 81 个特征。数字特征包括原子半径、电子亲和力、原子质量等。分类特征包括元素数量和其他计数的特征,这些特征在我们的建模中已转换为分类特征。
我们为什么选择这个用例?
此用例是外推法如何在具有大量数值特征的建模集上工作的示例。 在这个包含大约 22,000 条记录的数据集中,有超过 80 个数字特征。
在拆分为外推集之前分析总数据集时,我们只注意到总分布的一些异常值。下面小提琴图中的异常值用顶部分布图中的红点表示。因此,与分布的其余部分相比,我们的外推集不会包含许多极端异常值。
Figure 3.1
结果
该数据集包括数字和分类特征。这个用例与前两个不同,因为这个用例有很多数字特征,只有 2 个分类编码特征。与前两个用例类似,特征转换包括标准化数字特征和对分类特征进行 One Hot 编码。不同建模技术的重要特征略有不同,但主要由原子半径和质量特征的变化组成。所有建模技术也将描述超导体中元素数量的分类特征列为前 10 个最重要的特征。电子亲和力和热导率特征在建模技术中具有不同程度的重要性。线性回归将这些视为相关特征,最值得注意的是,电子亲和力特征对临界温度具有强烈的负面影响(图 3.2)。随机森林和决策树模型认为电子亲和力特征对模型的影响相对较小(图 3.3 和 3.4)。所有建模技术都将数字特征视为最有益的。
Figure 3.2
Figure 3.3
Figure 3.4
在下面的图 3.5 中,您可以看到线性回归再次成为该用例最差的建模技术。基于树的模型随机森林回归器和梯度提升回归器在训练和测试中均具有最低的 RMSE。
Figure 3.5
比较测试集的性能和外推集的性能,我们继续看到基于树的模型随机森林回归器和梯度提升回归器表现最好。相对而言,当预测外推区域是模型中最小的时,我们再次注意到线性回归的建模性能下降。下面的图 3.6 显示线性回归的 RMSE 增加了大约 2.9 倍测试集的外推性能,而所有基于树的模型都看到 RMSE 增加了至少 3.5 倍的测试集。尽管此数据集与之前我们看到大量极端异常值的用例不同,但我们继续看到线性回归在外推区域上的相对表现最好。
Figure 3.6
Figure 3.7
外卖
最后一个用例检查了一个包含 80 多列的数据集,几乎所有列都是数字的。此用例在目标分布中有少量异常值。在这些方面,与之前讨论的用例相比,这个用例是独一无二的,但我们仍然在外推期间看到了类似的相对性能结果。 在比较外推集上的模型性能指标时,我们证明了我们的假设,即线性回归在预测外推集时的性能相对下降最低。
最后的要点
正如我们在假设中提到的,在考虑最佳模型性能和在异常值下保持相对准确的预测之间的权衡时,线性回归可以提供一个合理的模型。此外,由于这些线性回归模型只是一阶多项式,因此不可能过拟合。这让我们相信我们的模型在训练数据范围之外不会出现异常行为。 我们所有的例子都表明,当使用模型预测已知训练数据范围之外的值时,线性回归提供的性能相对下降最小。
众所周知,基于树的算法是更高级/更强大的算法。但是,如果模型做出超出训练数据范围的预测,则预测的可靠性几乎没有信心,尤其是当模型过度拟合训练数据时。这在我们的用例示例中很明显。
线性回归可能不是最准确的模型,但在决定用于外推的建模技术时,它在具有线性关系的用例中外推的相对性能应始终将其作为考虑因素。
脚注
1)小提琴图图像正在拟合数据的分布,使其看起来好像训练/测试数据和外推数据之间存在一些重叠。注意这两组是完全不相交的,所有的值都≥0。
参考
Bartley, ML, Hanks, EM, Schliep, EM, Soranno, PA 和 Wagner, T. (2019)。识别和表征多元响应数据中的外推。 PLOS ONE , 14 (12)。 https://doi.org/10.1371/journal.pone.0225715
Balestriero, R., Pesenti, J. 和 LeCun, Y.(2021 年,10 月 29 日)。 高维学习总是外推 .检索于 2022 年 4 月 1 日,来自 https://arxiv.org/pdf/2110.09485.pdf
Dua, D. 和 Graff, C. (2019)。 UCI 机器学习存储库 [ http://archive.ics.uci.edu/ml ]。加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院。
霍格,J. (nd)。 UCI 机器学习存储库:地铁州际交通量数据集。检索于 2022 年 4 月 1 日,来自 https://archive.ics.uci.edu/ml/datasets/Metro+Interstate+Traffic+Volume
Fanaee-T, H. (nd)。 UCI 机器学习存储库:自行车共享数据集数据集。检索于 2022 年 4 月 1 日,来自 https://archive.ics.uci.edu/ml/datasets/bike+sharing+dataset
Hamidieh, K. (nd)。 UCI 机器学习存储库:超导数据数据集。检索于 2022 年 4 月 1 日,来自 https://archive.ics.uci.edu/ml/datasets/superconductivty+data
额外的致谢
本文及相关代码由 托马斯·贾瓦托 和 丹尼尔·弗莱克 .我们要特别感谢 Robert Uleman 的深思熟虑的修订、反馈和指导。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明