利用LSTM自动编码器预测极端事件

原始链接：

https://towardsdatascience.com/extreme-event-forecasting-with-lstm-autoencoders-297492485037

处理极端事件预测对每个数据科学家来说是个噩梦。环顾四周，我发现了处理这个问题的非常有趣的资源。就我个人而言，我真的爱上了优步研究人员发布的方法。在他们的论文中(两种版本可以在这里和这里找到)，他们开发了一种ML解决方案，用于每日预测旅行者的未来需求。他们的方法吸引了我的注意，因为它普适性、解释好、易于执行。所以我的目的是用python语言再现他们的发现。这次的挑战让我很满意，最后，我提高了自己的回归预测知识。

本文的重点：

1）开发一种稳定的方法来评估和比较Keras模型(同时避免了权值种子生成器的问题);

2）实现了一个简单和聪明的LSTM自动编码器用于新特征的创建;

3）使用简单的技巧提高时间序列的预测预测性能(见上面的步骤);

4）处理嵌套的数据集，即我们有属于不同实体的观察数据的问题(例如不同商店/引擎/人员等的时间序列)……在这个意义上，我们只开发一个高性能的模型!

下面我们将一步步的对其进行实现

问题定义：

在Uber，对完成行程的准确预测(特别是在特殊活动期间)提供了一系列重要的好处:

更高效的司机分配，从而减少了乘客的等待时间、预算规划和其他相关任务。

为了达到对拼车司机需求的高精度预测，优步研究人员开发了一个高性能的时间序列预测模型。他们能够用来自不同地点/城市的大量异构时间序列拟合(一次性)单一模型。这个过程允许我们提取相关的时间模式。最后，他们能够预测需求，对不同的地点/城市进行概括，优于经典的预测方法。

数据集：

为了完成这项任务，优步使用了一个内部数据集，该数据集记录了不同城市之间的日常出行，包括其他功能;即天气信息和城市级信息。他们的目的是通过过去观察的固定窗口来预测第二天的需求。

不幸的是，我们没有这类数据，所以作为Kaggle粉丝，我们选择了不错的牛油果价格数据集。该数据显示了两种不同品种的历史价格，以及在多个美国市场的销量。

我们之所这样选择是由于需要一个具有时间相关性的嵌套数据集:我们对每个美国市场都有时间序列，总共54个，如果我们为每种类型(传统的和有机的)考虑一个时间序列，这个数字将增长到108个。优步研究人员强调了这种数据结构的重要性，因为它允许我们的模型发现重要的无形关系。此外，序列之间的相关性为我们的LSTM Autoencoder在特征提取过程中带来了优势。

为了建立我们的模型，我们使用了截至2017年底的价格时间序列。2018年的前2个月被存储并用作测试集。对于我们的分析，我们也将考虑所有提供的回归变量。观察结果以微弱的频率显示，所以我们的目的是:给定一个固定的过去窗口(4周)的功能，预测即将到来的弱价格。

由于没有指数增长和趋势行为，我们不需要缩放我们的价格数据。

建模
为了解决我们的预测任务，我们复制了Uber提出的新的模型架构，该架构为异构预测提供了单一模型。如下图所示，模型首先通过自动特征提取对网络进行质数，训练一个LSTM Autoencoder，这对于大规模捕获复杂的时间序列动态是至关重要的。然后，特征向量与新的输入连接，并提供给LSTM Forecaster进行预测。

我们的预测工作流程很容易想象:我们有针对不同市场的每周价格(加上其他特征)的初始窗口。我们开始在它们上训练我们的LSTM自动编码器;接下来，我们删除编码器并利用它作为特性创建器。第二步也是最后一步，需要训练预测LSTM模型进行预测。基于真实/现有的回归器和之前人工生成的特征，我们可以提供下周牛油果的价格预测。

我们很容易使用Keras实现这个逻辑

我们的LSTM自动编码器由一个简单的LSTM编码器层和另一个简单的LSTM解码器组成。在评估过程中，您将了解dropout的效用，在这一点上它们是无害的，相信我!

1 inputs_ae = Input(shape=(sequence_length, n_features))
2 encoded_ae = LSTM(128, return_sequences=True, dropout=0.5)(inputs_ae, training=True)
3 decoded_ae = LSTM(32, return_sequences=True, dropout=0.5)(encoded_ae, training=True)
4 out_ae = TimeDistributed(Dense(1))(decoded_ae)
5 sequence_autoencoder = Model(inputs_ae, out_ae)

我们计算特征提取和连接的结果与其他变量。在这一点上，我对Uber的解决方案做了一点偏差:他们建议操纵我们的编码器提取的特征向量，通过集成技术(例如，平均)来聚合它们。我决定让他们原创和自由。我做这个选择是因为它能让我在实验中取得更好的结果。

最后，预测模型是另一个简单的基于LSTM的神经网络:

1 inputs = Input(shape=(sequence_length, n_features))
2 lstm = LSTM(128, return_sequences=True, dropout=0.5)(inputs, training=True)
3 lstm = LSTM(32, return_sequences=False, dropout=0.5)(lstm, training=True)
4 dense = Dense(50)(lstm)
5 out = Dense(1)(dense)

模型的评估

最后，我们对结果进行预测并且和其他方法进行对比。

就我个人而言，评估两种不同程序的最佳方法是尽可能多地复现它们。在这个实现中，我想展示LSTM Autoencoder作为时间序列预测相关特征创建工具的能力的证据。

在这个意义上，为了评价我们的方法的优点，我决定开发一个新的模型价格预测与我们之前的预测NN相同的结构。

它们之间唯一的区别是它们的输入特征。

第一个接收编码器输出加上回归器;

第二个变接收原始的价格加上回归器。

不确定度估计和结果

时间序列预测在本质上是至关重要的，因为它所关注的领域具有极大的变异性。此外，如果您试图建立一个基于神经网络的模型，您的结果也受制于内部权重初始化。为了克服这一缺点，存在一些不确定性估计的方法:从贝叶斯到那些基于自助理论。

在他们的工作中，优步研究人员将Bootstrap和贝叶斯方法结合起来，产生了一个简单、鲁棒和紧密的不确定性界，具有良好的覆盖和可证明的收敛性质。

这个技术非常简单实用，我们已经间接地实现了它!如下图所示，在前馈过程中，dropout应用于编码器和预测网络的所有层。因此，编码器中的随机丢失智能地干扰了嵌入空间中的输入，从而导致了潜在的模型误定，并通过预测网络进一步传播。

在python语言中，我们只需在我们的神经网络中添加可训练的Dropout层，并在预测过程中重新激活它们(Keras用于在预测过程中剪掉Dropout)。

对于最终的计算，必须迭代调用预测函数并存储结果。我还计算了每次交互时的预测得分(我选择了平均绝对误差)。我们必须设置计算值的次数(在我们的例子中是100次)。通过存储分数，我们可以计算MAE的平均值、标准差和相对不确定性。

我们仅用LSTM预测网络对我们的“竞争模型”复制了相同的过程。在平均分数和计算不确定性后，LSTM Autoencoder + LSTM Forecaster的最终结果优于单一的LSTM Forecaster。

Performance (MAE) comparison on test data

总结

在这篇文章中，我复制了优步开发的用于特殊事件预测的端到端神经网络架构。我要强调的是:LSTM Autoencoder在特征提取器中的作用;该方案具有良好的可扩展性，避免了对每个时间序列训练多个模型;能够为神经网络的评估提供一种稳定和有利可图的方法。

我还指出，这种解决方案很适合当你有足够数量的时间序列共享共同的行为时……这些立即可见并不重要，Autoencoder为我们做到了这一点。

posted @ 2021-05-27 15:48 hi_mxd 阅读(703) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

hi_mxd

利用LSTM自动编码器预测极端事件

公告