【论文阅读】Adaptive Normalization for Non-stationary Time Series Forecasting A Temporal Slice Perspective

原始题目：Adaptive Normalization for Non-stationary Time Series Forecasting: A Temporal Slice Perspective
中文翻译：非平稳时间序列预测的自适应归一化：时间片的视角
发表时间：2023-12-15
平台：Advances in Neural Information Processing Systems
文章链接：https://proceedings.neurips.cc/paper_files/paper/2023/hash/2e19dab94882bc95ed094c4399cfda02-Abstract-Conference.html
开源代码：https://github.com/icantnamemyself/SAN

摘要

深度学习模型由于其在捕捉序列依赖性方面的强大能力，已经逐步推进了时间序列预测。尽管如此，由于真实世界数据中存在非平稳性，表明数据分布随时间快速变化，因此进行准确预测仍然具有挑战性。为了缓解这种困境，已经进行了几项努力，通过正常化操作来减少非平稳性。然而，这些方法通常忽略了输入序列和水平序列之间的分布差异，并假设同一实例中的所有时间点共享相同的统计特性，这太理想了，可能会导致次优的相对改进。为此，我们提出了一种新的切片级自适应归一化，称为SAN，这是一种通过更灵活的归一化和非归一化来增强时间序列预测能力的新方案。SAN包括两个关键的设计。首先，SAN试图消除以局部时间片（即子序列）为单位而不是以全局实例为单位的时间序列的非平稳性。其次，SAN采用了一个轻微的网络模块来独立地对原始时间序列的统计特性的演变趋势进行建模。因此，SAN可以作为一个通用的模型无关插件，更好地减轻时间序列数据的非平稳性带来的影响。我们在四个广泛使用的预测模型上实例化了所提出的SAN，并在基准数据集上测试了它们的预测结果，以评估其有效性。此外，我们还报告了一些有见地的发现，以深入分析和理解我们提出的SAN。我们公开我们的代码2。

1. 引言

时间序列预测在现实世界中越来越普遍。预测的进步促进了各种应用，如能源消耗规划[33]、临床医疗分析[16]、财务风险评估[15]和云资源分配[2]。最近，基于深度学习的方法由于其捕捉序列依赖性的强大能力，在很大程度上推进了预测和其他任务[23，27，3，42]。

然而，由于时间序列点随时间的快速演变（也称为时间序列的非平稳性），对时间序列预测进行准确预测仍然具有挑战性[31]。这种非平稳性可能导致不同时间跨度之间的差异，并阻碍深度学习模型的推广。为了减轻非平稳性的影响，通过归一化从原始数据中去除这些动态因素被认为是一种可行的解决方案[28]。

最近，一些开创性的努力致力于这一研究主题[17，25，10]。尽管这些归一化方法显著提高了预测性能，但我们发现现有解决方案存在两个局限性。一方面，现有的大多数方法忽略了输入序列和输出序列之间的分布差异，而简单地采用输入序列的统计特性来对输出结果进行反规范化。此外，先前的研究假设，在归一化处理过程中，同一实例内的所有时间点共享相同的统计特性，并且全局实例归一化被广泛应用。这种粗粒度设置是不合适的，因为时间序列点会随着时间的推移而快速变化[6，20]，特别是在输入和水平序列都可能跨越相当长持续时间的长期预测场景中。例如，由于节假日或电力消耗数据的温度峰值等事件，数据分布可能会发生突然变化。

我们在图1中绘制了一个预测样本，以更好地说明我们的观点。尽管在时间上是相关的，但输入序列的平均值与输出的平均值显著不同（从0.75到1.5），这表明存在潜在的普遍分布差异。此外，这种分布偏移可以在更细粒度的切片级别上快速发生，这违反了现有规范化方法的基本假设。因此，这些方法有可能通过用不正确的统计数据进行归一化来破坏输入序列的每个切片的本能模式，同时也会由于对未来统计数据的估计不佳而导致最终预测结果的预测偏移。

为了克服这些限制，我们提出了一个用于非平稳时间序列预测的通用归一化框架，称为切片自适应归一化（SAN）。SAN对细粒度时间切片或补丁中的非平稳性进行建模[26]，这些切片比单个数据点更具信息性，可以被视为时间序列数据的基本单元[4，14]。具体地说，输入序列首先被分割成大小相等的非重叠切片，然后根据它们的统计数据对其进行归一化，并输入到预测模型中。同时，我们使用统计预测模块来基于输入的统计来预测未来切片的分布。最后，将非平稳信息恢复到具有良好估计统计量的预测模型的输出中。通过对切片级特征进行建模，SAN能够消除局部区域中的非平稳性。此外，由于统计预测模块独立地对统计特性的演变趋势进行建模，SAN采用了更精确的统计进行自适应反规范化。因此，非平稳预测任务实际上被简化为统计预测和平稳预测。此外，SAN是一个与模型无关的框架，可以应用于任意的预测模型。已经在广泛使用的基准数据集中进行了充分的实验。结果表明，SAN大大提高了各种主流预测模型的性能，超过了先进的归一化方法。

总之，我们的主要贡献如下：

我们提出了SAN，这是一种用于非平稳时间序列预测任务的通用规范化框架，通过从时间切片的角度对非平稳性质进行建模来区分。这样，SAN可以更好地去除输入序列中的非平稳因素，同时保持其独特的模式。
我们为SAN设计了一个灵活的统计预测模块，该模块独立地对统计特性的演变趋势进行建模。通过显式学习估计未来分布，SAN可以通过分而治之简化非平稳预测任务。
我们在九个真实世界的数据集上进行了足够的实验。结果表明，SAN可以应用于各种主流预测模型，并在很大程度上提高了预测性能。此外，SAN和最先进的规范化方法之间的比较表明了我们提出的框架的优越性。

2. 相关工作

2.1时间序列预测

近几十年来，时间序列预测得到了广泛的研究。最初，ARIMA[1,40]建立了一个自回归模型，并以移动平均的方式进行预测。尽管实现了理论上的保证，但这种传统方法通常需要具有理想性质的数据，这与现实世界的情况不一致。随着数据可用性和计算能力的提高，出现了许多基于深度学习的模型，这些模型始终遵循序列到序列的范式。递归神经网络（RNN）首先用于通过总结时间序列中的过去信息来捕捉时间依赖性[30，32，37]。这样的架构自然会受到有限的接收场和递归推理模式[43]引起的误差累积问题的影响，这两个问题都会降低预测精度。为了进一步提高最终预测的性能，已经引入了许多先进的架构来捕获长程依赖性，例如自注意机制和卷积网络[19，21，24]。此外，为了利用时间序列数据的特性，最近的工作还将趋势季节分解和时频转换等传统分析方法集成到神经网络中[36，44]。此外，最近的一项研究指出，通过分解增强的简单线性网络也能获得竞争性能[39]。此外，基于切片的方法在长时间序列预测任务中表现出优越的准确性[26，41]。

2.2非平稳时间序列预测

大多数时间序列预测方法优先考虑设计功能强大的架构，这些架构可以有效地捕捉时间相关性，但往往忽略了数据的非平稳性。考虑到基于深度学习的模型的基本假设，即训练集和测试集中的数据遵循相同的分布，这种差异肯定会降低模型对未来时间预测的精度。此外，训练集中实例之间的分布差异可能会引入噪声，使学习任务更难收敛。为了应对这些挑战，已经探索了各种平稳化方法。

详细地说，DDG-DA[22]以领域自适应的方式预测不断演变的数据分布。Du等人[8]提出了一种自适应RNN，通过分布特征化和分布匹配来减轻非平稳因素的影响。此外，基于归一化的方法也越来越受欢迎，因为它们旨在从原始数据中去除非平稳因素，并将所有数据归一化为一致分布。DAIN[28]引入了一个非线性网络来学习如何自适应地对每个输入实例进行归一化，ST范数[7]从时间和空间角度提出了两个归一化模块。后来的研究人员指出，非平稳因素对准确预测至关重要，简单地去除它们可能会导致预测不佳。因此，他们提出了RevIN[17]，这是一种对称归一化方法，首先对输入序列进行归一化，然后通过实例归一化对模型输出序列进行反归一化[34]。基于类似的结构，非平稳变换器[25]提出了去平稳注意力，它将非平稳因素纳入了自注意力中，从而比基于变换的模型有了显著的改进。此外，最近的一项研究[10]确定了时间序列中的空间内和空间间分布偏移，并提出通过学习分布系数来缓解这些问题。

尽管现有的归一化方法是有效的，但它们不恰当地假设同一实例中的所有时间点在归一化处理过程中共享相同的统计特性。与它们不同的是，我们提出的方法侧重于进一步思考数据的性质，即在紧凑的时间片上分布不一致，这种不一致不仅仅是基于每个实例。

3. 建议的方法

我们提出了一种用于时间序列预测的通用模型无关归一化框架，称为切片自适应归一化（SAN），以解决上述不一致性。考虑时间序列的输入集\(X=\{x^{i}\}_{i=1}^{{N}}\)和它们的输出序列\({Y}=\{y^{i}\}_{i=1}^{N}\)，SAN有望去除非平稳因素，并帮助预测模型基于观测到的输入序列进行更准确的预测。在本节中，我们将介绍整个框架的详细工作流程，并解释它如何处理非平稳时间序列数据。为了提供更好的清晰度，我们总结了表1中的关键符号，整个框架可以参考图2。

3.1规范化

与现有的非平稳时间序列预测归一化方法[17]类似，SAN首先对输入序列进行归一化以去除非平稳因素，然后通过非归一化将其恢复为输出序列。不同的是，SAN在每个切片的基础上而不是在整个输入序列的基础上应用这样的操作。与全局实例规范化相比，这种本地化操作可以更好地保持每个切片的本能模式。该框架首先基于T将输入xi分割成M个非重叠切片\(\{x_{j}^{i}\}_{j=1}^{M}\)。然后，每个切片的平均值和标准偏差计算如下：

如何确定切片的个数M？--启发式

\[\mu_{j}^{i}=\frac{1}{T}\sum_{t=1}^{T}x_{j,t}^{i},(\sigma_{j}^{i})^{2}=\frac{1}{T}\sum_{t=1}^{T}(x_{j,t}^{i}-\mu_{j}^{i})^{2},\tag{1} \]

其中\(\mu_{i}^{i},\sigma_{i}^{i}\in R^{V*1}\)并且\(x_{j,t}^{i}\)是切片\(x_{j}^{i}\)在第t个时间步长的值。稍后，SAN将原始输入序列的每个切片通过其各自的统计信息标准化为：

\[\bar{x}_{j}^{i}=\frac{1}{\sigma_{j}^{i}+\epsilon}\cdot(x_{j}^{i}-\mu_{j}^{i}).\tag{2} \]

这里我们用·表示元素乘积，ε是一个小常数。最后，SAN按原始时间顺序恢复所有切片，并让处理后的没有非平稳因素的序列作为预测模型的新输入。

3.2统计预测

如图2所示，SAN引入了一个独特的统计预测模块\(f_{\phi}(*)\)，除了骨干预测模型\(g_{\theta}(*)\)之外，还可以更好地估计未来的分布。与现有的工作不同，现有的工作用原始输入序列的统计数据来反规范主干模型的整个输出，SAN面临着按切片规范化的自然挑战：如何估计每个未来切片的演变分布。为了简化和提高效率，我们使用了一个具有适当激活函数的双层感知器网络（例如，标准偏差的Relu（）以确保非负性），该网络学习基于输入统计和平稳序列来预测未来的分布。

统计预测的质量决定了SAN的总体性能，因为我们依赖于对未来分布的准确估计来恢复每个实例的非平稳性。在我们的分布建模中，平均值决定了给定切片的近似规模，标准差表示分散程度，其中小切片的规模在预测任务中可能更重要。因此，我们的目标是在分析均值分量特性的基础上，进一步完善均值分量的建模方法。

详细地说，我们认为输入序列的总体平均值\(\rho^i=\frac1{L_{i\boldsymbol{n}}}\sum_1^{L_{i\boldsymbol{n}}}x^i\in R^{V*1}\)是目标序列的平均值\(\hat{\rho}^{i}=\frac{1}{L_{out}}\sum_{1}^{L_{out}}y^{i}\in R^{V*1}\)的最大似然估计，因为它们在时间上是相关的。也就是说，\(\rho^{i}\approx\hat{\rho}^{i}\)。这种性质在现有工作[17，25]中被广泛接受，因为它们使用整个输入序列的统计信息来对输出进行反规范化。基于上述假设，我们在我们的方法中引入了残差学习[13]技术，让模块学习未来切片平均值μi和总体输入平均值ρi之间的差异，而不是预测特定值。这种方法减少了利用关于未来趋势的先验知识对手段进行建模的难度。此外，为了说明在尺度变化中表现出不同模式的不同变量，我们进一步使用初始化为一个向量的两个可学习向量W1、W2∈RV来呈现每个变量的个体偏好权重，从而以加权和的方式计算预测。统计预测过程可以公式化为：

\[\hat{\mu}^{i}=W_{1}*\mathrm{MLP}(\mu^{i}-\rho^{i},\bar{x}^{i}-\rho^{i})+W_{2}*\rho^{i},\hat{\sigma}^{i}=\mathrm{MLP}(\sigma^{i},\bar{x}^{i}).\tag{3} \]

这里，\(\mu^{i}=[\mu_{1}^{i},\mu_{2}^{i}...\mu_{M}^{i}]\in{R^{V*M}}\)表示输入的M个切片的所有平均值，而\(\hat{\boldsymbol{\mu}}^{i}\in R^{V*K}\)表示未来K个切片的预测平均值。同样的符号适用于标准偏差。预测统计数据和输出实况之间的均方误差（MSE）被用作通过反向传播训练网络的损失函数（lsp）。

3.3反规范化

在进行统计预测的同时，SAN将归一化序列输入到预测模型中，该模型负责产生内部输出̄yi。最后，SAN对主干给出的输出进行反规范化，恢复非平稳因素以获得准确的预测结果。

对称地说，SAN按片执行，如图2所示。对于内部输出̄yi，我们首先将其划分为K个不重叠的切片{̄; yi j}Kj=1。然后，基于我们预测的统计数据的任意切片的反规范化运算可以定义为以下公式：

\[\hat{y}_j^i=\bar{y}_j^i*(\hat{\sigma}_j^i+\epsilon)+\hat{\mu}_j^i.\tag{4} \]

3.4两阶段培训方案

尽管总体框架简单明了，但我们发现训练过程需要仔细考虑。由于SAN的规范化流程对骨干模型起到约束作用，因此整个学习过程实际上是一个双层优化问题[12]。上层的目标是时间序列预测的性能，而下层的目标是非规范化输出和输出实况之间的分布相似性。从形式上讲，最初的整体训练过程可以描述为：

\[\begin{aligned}\arg\min_\theta&\sum_{(\boldsymbol{x}^i,\boldsymbol{y}^i)}l_{fc}(\theta,\phi^*,(\boldsymbol{x}^i,\boldsymbol{y}^i)),\\\text{s.t.}\phi^*&=\arg\min_\phi\sum_{(\boldsymbol{x}^i,\boldsymbol{y}^i)}l_{sp}(\theta,\phi,(\boldsymbol{x}^i,\boldsymbol{y}^i)).\end{aligned}\tag{5} \]

这里我们省略了数据的转换过程，为了简洁起见，只保留计算所需的原始输入。

我们提出了一种SAN的两阶段训练范式，通过简化较低级别的优化目标，使其能够专注于估计未来的分布，而不是减少某个模型的非规范化输出与基本事实之间的分布差异。具体而言，我们使用随机梯度下降来优化\(\phi^{*}=\arg\operatorname*{min}_{\phi}\sum_{(x^{i}y^{i})}l_{sp}(\phi,{(x^{i},y^{i})})\)。这将原来的非平稳预测任务解耦为统计预测任务和平稳预测任务。在实践中，首先将统计预测模块训练为收敛，然后在训练预测模型的第二阶段将其冻结并作为插件处理。附录C.2中提供了训练算法。

4. 实验

在本节中，与最先进的方法相比，我们在广泛使用的基准数据集中进行了足够的实验，以证明我们提出的SAN框架的有效性。

4.1 实验设置

数据集我们在实验中使用了九个数据集，下面是对它们的简要描述。（1） ETT3[43]记录了2016年7月至2018年7月期间变压器的油温和负载特征。它由4个子数据集组成，其中ETTh每小时采样一次，ETTms每15分钟采样一次。（2） Electricity4包含321家客户2016年7月至2019年7月的用电量数据。（3） Exchange5[19]收集了8个国家1990年至2016年的每日汇率。（4） Traffic6包括2015年至2016年由862个传感器记录的旧金山高速公路每小时的交通负荷。（5） Weather7由21个天气指标组成，包括2021年每10分钟收集一次的空气温度和湿度。（6） ILI8记录了2002年至2021年美国疾病控制和预防中心每周流感样疾病患者与总患者的比例。表中列出了有关这些数据集的详细信息。2.我们还在表中报告了ADF检验（Augmented Dickey Fuller检验）[9]结果，该结果评估了时间序列的平稳性。根据标准协议，我们将每个数据集按时间顺序划分为训练集、验证集和测试集。ETT数据集的分割比为6:2:2，其他数据集的分裂比为7:1:2[38]。此外，我们基于训练数据的统计数据对它们应用z分数归一化作为预处理，以测量同一量表上的不同变量。请注意，z分数归一化无法处理非平稳时间序列，因为统计数据在归一化过程中是固定的[28]。

主干模型SAN是一个与模型无关的框架，可应用于任意时间序列预测模型。为了证明该框架的有效性，我们选择了一些基于不同架构的主流模型，并在多变量和单变量设置下评估其性能：基于线性模型的DLlinear[39]、基于Transformer的Autoformer[38]和FEDformer[45]，以及基于扩张卷积的SCINet[24]。我们遵循DLinear9和SCINet10官方代码中提供的实现和设置来实现这些模型。

实验细节我们使用ADAM[18]作为所有实验的默认优化器，并报告均方误差（MSE）和平均绝对误差（MAE）作为评估指标。较低的MSE/MAE表示更好的性能。对于SAN中的统计预测模块，为了简单起见，我们使用了一个简单的两层感知器网络，其隐藏大小与骨干模型的嵌入大小相同。统计预测模块的详细实现可参见附录C.1。所有实验都由PyTorch[29]实现，并在单个NVIDIA RTX 3090 24GB GPU上使用固定的随机种子进行三次运行。

切片长度关于每个数据集的切片长度的选择，我们采用了一种启发式思想，即真实世界的时间序列数据在人工定义的或实际的时期（每天、每周等）内表现出相似的变化模式。结合基准数据集的频率，我们建立了{6，12，24，48}的范围作为切片长度，使得大多数设置覆盖有意义的时间跨度。例如，我们为ETTh1、电力和交通等数据集选择了24个切片长度，频率为1小时。这确保了每个时间片包含一天内的数据，并保证了候选者之间的最佳性能。在这里，我们承认我们的方法的一个局限性是，当前的设计无法处理不可分割的长度，因此我们将切片长度设置为6，这大约代表一周的时间段，而不是Exchange数据集中的7。我们在附录B.5中介绍了切片长度影响的消融研究。

4.2主要结果

我们在表3中报告了多变量预测结果。ILI数据集的预测范围为Lout∈{24，36，48，60}，而其他数据集的预报范围为Lout∈{96，192，336，720}。关于输入序列长度，我们遵循传统协议，并针对所有数据集固定Autoformer、FEDformer和SCINet的Lin=96（ILI数据集的Lin=36），并将其扩展到DLlinear的336（ILI数据集为96）。附录中提供了ETT数据集的完整基准和单变量结果。

如表所示，我们清楚地发现，在大多数基准数据集的情况下，我们提出的SAN框架可以大幅提升这些模型。我们将这种改进归因于两个方面。首先，SAN减轻了非平稳因素的影响，如在三个典型的非平稳数据集（Exchange、ILI和ETTh2，由ADF测试结果确定）上的性能所示。具体而言，在DLlinear的所有实验预测长度下，SAN在Exchange数据集中实现了7.67%的平均MSE降低，在ILI数据集中实现11.13%，在ETTh2数据集中实现21.29%。这一结论也适用于其他主干模型，并且增强更加明显。其次，即使在预测难度随着预测长度的增加而显著增加的长期预测场景中，SAN也会对骨干模型施加约束，以使用新的统计预测模块产生更可靠的结果。例如，当预测720个时间步长的长度时，SCINet和SAN在ETTh2数据集上实现了70.37%的MSE降低，在Electricity数据集上则实现了20.77%的MSE减少。这些改进使SCINet与其他预测模型具有可比性，并表明SAN可以帮助在长期预测场景中稳定输出。

4.3与归一化方法的比较

在本节中，我们将SAN与三种最先进的非平稳时间序列预测归一化方法进行了比较：RevIN[17]、非平稳变换器（NST）[25]和Dish TS[10]。根据第4.2节中的相同实验设置，我们在表4中报告了Autoformer和FEDformer在每个数据集的所有预测长度上的平均MSE评估以及相对改进。其他模型没有那么涉及主干，因为NST只能适用于基于Transformer的模型，而其他方法则更灵活，可以应用于任意预测模型。

可以得出结论，在现有的规范化方法中，SAN实现了最佳的性能。该改进是显著的，FEDformer的平均MSE降低了10.71%。除了Weather之外，SAN的性能始终优于基线模型，而且这种改进在Exchange和ILI（由ADF测试确定）等典型的非平稳数据集中更为明显。比较表明，从时间切片的角度来看，SAN在消除非平稳因素方面可能比考虑整个实例更有效。此外，所提出的两阶段训练方案至关重要，因为它使SAN能够以很大的优势优于Dish TS，而忽略了双层优化的本质。然而，SAN的这种特殊能力可能会导致过度平稳化问题[25]，导致天气数据集的性能下降。所有案例和进一步讨论的详细结果见附录B.6。

4.4定性评价

除了度量的准确性之外，时间序列预测中预测结果的质量也是至关重要的。图3显示了ETTm2数据集上的一个示例预测，该数据集使用FEDformer作为具有SAN、RevIN、NST或Dish TS增强功能的主干。输入长度是96，并且预测长度被设置为336。很明显，SAN可以产生更现实的预测，而其同行甚至无法捕捉到未来数据的规模。我们猜测RevIN和NST的低质量是由它们粗糙的非规范化方式引起的。尽管输入序列的平均值可以被视为未来数据的最大似然估计，但与输入相比，非平稳数据集的分布可能会发生显著变化。因此，简单地将骨干模型的输出与输入序列统计数据去规范化可能会导致失配，就像RevIN和NST预测中看到的那样，在这两个尺度相似的情况下。对于Dish-TS，尽管该方法试图学习未来分布，但它忽略了双层优化的本质，其纠缠的学习模式限制了统计数据的估计精度，最终导致性能较差。相反，SAN从切片的角度对时间序列的动态性质进行建模，并引入了一个独立的统计预测模块，以学习通过两阶段训练模式预测未来的分布，从而进行反规范化。通过这种方式，我们根据统计预测自适应地调整预测结果的规模和偏差，捕捉未来数据的趋势。因此，尽管输入的平均值相当低，但SAN仍然会产生与实际情况一致的更高预测。

5结论

在这项研究中，我们专注于使用一种新的切片视图来缓解时间序列数据的非平稳特性。我们提出了用于时间序列预测的SAN框架，这是一种与模型无关的方法，它通过去除非平稳因素来归一化输入，并通过逐片去归一化将其恢复为输出。此外，在一个新的统计预测模块的帮助下，SAN将非平稳预测划分为两个子任务，以提高预测模型的性能，从而简化了非平稳预测。为了证明SAN的优越性，我们在广泛使用的基准数据集上进行了实验，发现SAN显著改进了主流预测模型，并优于最先进的归一化方法。我们希望SAN可以作为时间序列预测的基础组件，并促进从切片角度对时间序列建模的进一步研究。

A SAN对非平稳时间序列预测的影响

A.1 Discussions

如本文所示，我们提出的SAN是一个紧凑的即插即用框架。我们将在本节中首先简要讨论SAN如何有效。

SAN能够很好地减轻时间序列数据的非平稳性带来的影响，这一点至关重要。预测模型可能会遇到非平稳数据的非i.i.d问题，即每个输入实例的边际分布可能不同，这可能导致训练集和测试集的分布之间存在巨大差异。因此，这些模型在未来的预测中不能很好地推广。但是，SAN将把所有输入实例标准化为标准正态分布，并强制训练和测试数据分布的均值和方差相同。这样，所有的数据实例都来自同一分布，因此预测任务被简化，因为模型可以消除非平稳因素引起的噪声，只专注于挖掘时不变模式。此外，与现有的归一化预测方法相比，我们在时间片视图中对非平稳特性的建模更深入、更现实，因此SAN可以更好地去除输入序列中的非平稳因素，同时在归一化阶段保留其本能信息。因此，理论上预计SAN在非平稳时间序列预测中表现更好。

另一个有助于SAN有效性的部分是统计预测模块和两阶段训练模式。通过统计预测模块对统计属性的演变趋势进行独立建模，SAN采用了比现有解决方案更精确的统计数据进行自适应非规范化。此外，所提出的两阶段策略实际上通过分而治之简化了原始的预测任务：在第一阶段，我们试图学习未来数据的大致方向和离散度，这很容易拟合，并且由光统计预测模块进行。接下来，我们利用强大的主干模型来发现无标度的类周期特征，在训练有素的统计预测模块的指导下估计未来的值。因此，SAN中的主干模型实际上负责更简单的子任务。考虑到SAN通常可以对未来的分布给出可靠的估计，通过将任务拆分为两个更简单的子任务，SAN有望在非平稳时间序列预测方面表现良好。

A.2理论分析

使用本文中相同的符号，我们证明了SAN归一化后的所有输入都遵循标准正态分布，从理论上验证了SAN去除非平稳因素的能力。

详细地说，对于任意输入序列xi，SAN首先将其拆分为M个非重叠切片\(\{x_j^i\}_{j=1}^M\)，并根据它们的统计对它们进行归一化。因此，我们将获得：

\[\forall i,j\ \mathbb{E}[\bar{\boldsymbol{x}}_j^i]=0,Var[\bar{\boldsymbol{x}}_j^i]=I\tag{6} \]

对于归一化输入的统计量xi，它满足以下方程：

\[\begin{aligned} \mathbb{E}[\bar{x}^{i}]& =\mathbb{E}_{j}[\mathbb{E}[\bar{x}_{j}^{i}]] \\ &=\mathbb{E}_j[0] \\ &=0 \end{aligned}\tag{7} \]

\[\begin{aligned} Var[\bar{x}^{i}]& =\frac{\sum_{\boldsymbol{t}=\boldsymbol{0}}^{\boldsymbol{L}_{\boldsymbol{i}n}}(\bar{x}_{\boldsymbol{\vdots},\boldsymbol{t}}^{\boldsymbol{i}}-\mathbb{E}[\bar{\boldsymbol{x}}^{\boldsymbol{i}}])^2}{L_{\boldsymbol{i}n}} \\ &=\frac{\sum_{t=0}^{L_{in}}(\bar{x}_{\vdots,t}^{i})^{2}}{MT} \\ &=\frac{1}{M}*(\frac{\sum_{t=0}^{T}(\bar{x}_{:,t}^{i})^{2}}{T}+\frac{\sum_{t=T}^{2T}(\bar{x}_{:,t}^{i})^{2}}{T}+,\ldots,\frac{\sum_{t=(M-1)/T}^{MT}(\bar{x}_{:,t}^{i})^{2}}{T}) \\ &=\mathbb{E}_{j}[Var[\bar{x}_{j}^{i}]] \\ &=I \end{aligned}\tag{8} \]

这里\(\bar{x}_{:,t}^{i}\in R^{V*1}\)表示时间步长t中的所有归一化变量。从上面的等式中，我们可以了解到，在SAN的归一化运算之后，任何输入序列都遵循标准正态分布，这满足了我们的期望。

B 补充实验

B.1 ETT数据集的完整基准

我们在表5中提供了ETT数据集的完整多变量预测结果，其中包括每小时数据集ETTh1和ETTh2以及15分钟数据集ETTm1和ETTm2。很明显，SAN还在各种主干模型上对这些数据集进行了显著改进。

B.2单变量预测结果

根据我们主要实验的相同设置，我们在表6中提供了单变量预测结果。与多变量预测的结果类似，SAN在大多数情况下可以提高主流预测模型的性能。在所有基准设置的平均值中，SAN增强的DLlinear将MSE降低了6.04%（从0.230降低到0.214）。FEDformer、Autoformer和SCINet的改进分别为15.40%、29.27%和36.29%。

B.3 各种输入长度的验证

输入长度在时间序列预测任务中起着至关重要的作用，因为它决定了模型可以挖掘多少历史时间信息。人们可能希望，对于强大的深度模型，输入长度越长，预测结果越好。然而，最近关于这个问题的一项研究表明，基于深度Transformer的模型无法捕捉长期输入序列中的时间相关性[39]。也就是说，当输入长度增加时，这些深度模型的性能保持稳定，甚至下降。

除了这些深层模型的设计之外，我们还认为时间序列的非平稳性可以引起这种现象。随着输入长度的增加，输入序列之间的方差越来越大，最终使深度模型更难发现时不变模式。因此，通过去除SAN输入中的非平稳因素，深度模型有望在输入长度较长的情况下表现出指标的稳步下降。

为了证明我们的想法，我们在基于变换的模型上进行了长期预测实验，即Lout=720，具有不同的输入长度Lin∈{24，48，72，96，120，144，168，192，336，504，672，720}。在这里，我们选择Transformer[35]、Informer[43]、Autoformer[38]和FEDformer[45]作为主干模型。MSE评估如图4所示。请注意，我们在折线图中省略了较大的值，以更好地展示总体结果的趋势。从图中我们可以看到，在SAN的帮助下，具有长序列输入的深度模型的性能得到了很大的提高。当在Electricity数据集上输入长度设置为720时，Informer的性能提高了77.83%（从0.9426提高到0.2090），在相同设置下，四个主干的平均改进率为52.55%。此外，随着长度的增加，SAN增强的所有主干往往会产生更准确的预测。具体而言，在Weather数据集上，当将输入从24步延长到720步时，Transformer的MSE降低了29.40%，四个主干的平均改善率为33.11%。这些结果极大地满足了我们的期望，也验证了SAN在各种输入长度上的有效性。

B.4其他预测展示

我们在图5中提供了SAN和其他归一化方法之间的额外比较。5在各种数据集上使用FEDformer[45]。显然，SAN可以更好地估计未来的分布，从而帮助主干模型实现卓越的性能，使预测结果更好地与实际情况相一致。

B.5消融研究

统计预测模块在本节中，我们旨在分析我们在统计预测模块中的设计的有效性。我们在Autoformer上实例化了我们的方法及其变体，并在两个典型的非平稳数据集：Exchange和ETTh2上测试了它们的性能。同样，我们用固定种子重复实验三次，并在表7中报告具有标准偏差的评估结果。

显然，将所提出的两种技术相结合，统计预测模块可以达到最佳的精度，从而获得最佳的预测性能。此外，残差学习和个体偏好都有积极影响，前者更为重要，否则SAN甚至会给骨干模型带来负面影响。这些结果验证了我们关于均值特征的想法的合理性，也揭示了对未来统计数据进行准确建模对SAN的重要性。此外，没有单独建模的SAN在ETT2数据集上表现良好，但在Exchange数据集上却表现不佳。这样的现象表明，不同情景的演变趋势各不相同，需要对多个变量之间的复杂关系进行单独建模。此外，由于我们只将均值的性质纳入一个简单的MLP网络，因此如何设计一个合适的机制或网络架构来进行统计建模是优化我们的方法的一个很有前途的方向，我们将这些探索留给未来的工作。

切片长度切片长度是SAN的一个关键参数。我们的目的是研究不同切片长度对我们的方法的影响。消融实验是在长期预测设置下使用SCINet作为主干模型进行的（ILI数据集的Lout=60，其余数据集的Laut=720）。每个实验用一个固定的随机种子进行三次。预测误差和相应的标准偏差如表8所示。

我们对切片长度的启发式选择在候选者中似乎是有效的，这表明人工定义的周期和实际周期在选择最佳设置时都是有用的。此外，在各种设置下没有观察到显著的性能差异，这表明SAN对切片长度的变化具有弹性。

B.6 SAN和规范化方法之间比较的详细结果

在表9中，我们提供了SAN和最先进的非平稳时间序列预测归一化方法RevIN[17]、NST[25]和Dish TS[10]之间比较的详细实验结果。我们重新实现了前两种方法，Dish TS由其官方代码11实现。

该表清楚地显示，除了Weather数据集之外，SAN在大多数情况下都优于现有方法。考虑到天气数据集是最稳定的数据集，研究结果表明，SAN可以更好地去除原始数据中的非平稳因素，甚至导致过平稳问题，从而降低性能。

此外，Dish-TS在基准测试中表现不佳。虽然它解决了输入序列和水平序列之间的分布偏移，但由于忽略了分布估计和预测任务的内在双层优化目标，它未能对系数网络和骨干网络进行优化。通过采用联合训练模式，Dish-TS会干扰两个网络，并在某些情况下导致较差的性能。相反，SAN受益于所提出的将两个任务解耦的两阶段模式。这允许对每个组件进行适当的优化，并提高整体性能。

B.7 SAN用于基于切片的预测方法

在本节中，我们将研究SAN对最近出现的切片预测方法的可推广性：PatchTST[26]和Crossformer[41]。我们使用他们的官方代码和超参数设置（如果可用）建立预测模型1213。对于PatchTST，我们将RevIN[17]层替换为SAN。我们在表10中报告了5个数据集的实验结果。

结果表明，在大多数情况下，SAN可以在一定程度上提高PatchTST和CrossFormer的预测性能。PatchTST的改进并不显著，主要有两个原因：1）模型中已经引入了RevIN，以减轻非平稳时间序列的影响；2）由于这两种方法都是基于切片的方法，可以将系列拆分为切片（对于SAN，不重叠的切片和对于PatchTST，重叠的修补程序），因此参数设置可能会对性能产生更大的影响，如何确定正确的设置需要进一步研究。此外，CrossFormer的官方代码提供了电力、天气和ETTh1数据集的参数设置。对于Exchange和ETTm2数据集，我们提取了常见且合理的设置。在没有SAN的情况下，由于参数不合适，CrossFormer在后两个数据集上的性能与PatchTST相比较差。但是，当在相同的设置下使用SAN进行增强时，CrossFormer可以获得具有竞争力甚至卓越的性能。这一现象表明，SAN可以潜在地减少对骨干模型参数设置的依赖，同时也降低了现实世界预测应用程序中与参数调整相关的成本，进一步验证了我们通过两阶段训练模式将复杂的非平稳预测任务分为两个更容易的子任务的尝试。

C 实施细节

C.1 统计预测模块的体系结构

本文中MLP（x1，x2）的计算可以总结如下：

\[\begin{aligned} &x_1 =act_1(W_1*x_1) \\ &x_2 =act_1(W_2*x_2) \\ &\text{r} =[x_1;x_2] \\ \text{output}& =act_2(W_3*x) \end{aligned}\tag{9} \]

这里，符号[；]表示连接操作。我们为标准偏差设置act1（），act2（）=Relu（），Relu（。W1、W2、W3是隐藏大小为{512,512,1024}的可学习变换矩阵。

C.2两阶段训练模式的算法

为了将SAN应用于主干预测模型，我们提出了一种两阶段的训练模式来应对双层优化目标的挑战。首先将统计预测模块训练为收敛，然后在训练预测模型的第二阶段将其冻结并作为插件处理。我们在Alg中提供了这样一个过程的伪代码。1.

D 限制

尽管SAN在基准数据集上显示出良好的性能，但这种方法仍有一些局限性。首先，我们主要是启发式地选择切片长度或在预定义的候选者中搜索，而当前的设计不能处理不可分割的长度或时间序列的多周期特性。这种解决方案适用于实验，但在实际应用中缺乏通用性。其次，SAN可能会导致一个过于稳定的问题，从而导致性能次优。此外，当应用于类似的基于切片的方法（尤其是重叠的基于切片方法）时，确定如何为它们调整SAN的参数并不是一项简单的任务。因此，一种更灵活的自动切片长度选择和归一化强度控制的解决方案将是我们的探索方向。

posted @ 2024-06-26 10:27 张天明阅读(205) 评论(0) 收藏举报

刷新页面返回顶部