Pyraformer: 用于长时间序列建模和预测的低复杂度金字塔注意力《Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting》(金字塔注意力模块机制、PAM、CSCM、多尺度)

今天是2022年10月1日，今天重读一遍这篇论文。

10月1日16:48，上次读是4月20日，时间过得好快。

论文：Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting

GitHub：https://github.com/ant-research/Pyraformer

ICLR 2022的论文。

那就开始吧.

摘要

基于时间序列数据准确预测过去的未来至关重要，因为它为提前做出决策和风险管理打开了大门。在实践中，所面临的挑战是建立一个灵活但简洁的模型，它可以捕获广泛的时间依赖性。在本文中，我们通过探索时间序列的多分辨率表示来提出Pyraformer。具体来说，我们引入了金字塔注意力模块（PAM），其中尺度间树结构总结了不同分辨率下的特征，尺度内相邻连接建模了不同范围的时间相关性。在温和条件下，Pyraformer中信号穿越路径的最大长度相对于序列长度L是常数（即O（1）），而其时间和空间复杂度与L成线性比例。广泛的实验结果表明，Pyraformer通常以最少的时间和内存消耗在单步和长程多步预测任务中实现最高的预测精度，尤其是当序列长时。

(好久不见，今天是10月17日 16:41)

(因为实验结果跑的稀烂，所以从国庆节开始就开始了配环境的操作，因为各种奇奇怪怪的事情，反正是到现在也没配好，不如来重新回顾一下这篇论文)

1 介绍

时间序列预测是决策和风险管理等下游任务的基石。例如，对微服务的在线流量的可靠预测可以对云系统中的潜在风险发出预警。此外，它还为动态资源分配提供指导，以便在不降低性能的情况下最小化成本。除了在线流量，时间序列预测在其他领域也有广泛的应用，包括疾病传播、能源管理、经济和金融。时间序列预测的主要挑战在于构建一个强大但简洁的模型，该模型可以紧凑地捕捉不同范围的时间相关性。时间序列通常表现出短期和长期重复模式（Lai等人，2018），将其考虑在内是准确预测的关键。特别值得注意的是处理长程依赖性的更困难的任务，其特征是时间序列中任意两个位置之间的最长信号穿越路径的长度（定义见命题2）（Vaswani等人，2017）。路径越短，捕获依赖关系的效果越好。此外，为了让模型学习这些长期模式，对模型的历史输入也应该很长。为此，低时间和空间复杂性是一个优先事项。

(想要低时间和空间复杂度。)

不幸的是，目前最先进的方法无法同时实现这两个目标。在一端，RNN（Salinas等人，2020）和CNN（Munir等人，2018）实现了低时间复杂度，在时间序列长度L方面是线性的，但它们的信号穿越路径的最大长度是O（L），因此它们很难学习远距离位置之间的相关性。另一方面，Transformer以将时间复杂度增加到O（L2）为代价，将最大路径大幅缩短到O（1）。因此，它无法处理很长的序列。为了在模型容量和复杂性之间找到折衷方案，提出了Transformer的变体，如Longformer（Beltagy等人，2020）、Reformer（Kitaev等人，2019）和Informer（Zhou等人，2021）。然而，它们中很少有能够实现小于O（L）的最大路径长度，同时大大降低了时间和空间复杂性。

(10月18日11:11)

在本文中，我们提出了一种新的基于金字塔注意力的Transformer（Pyraformer），以弥补捕获长距离依赖和实现低时间和空间复杂性之间的差距。具体来说，我们通过在金字塔图中传递基于注意力的信息来开发金字塔注意力机制，如图1（d）所示。该图中的边可以分为两组：尺度间连接和尺度内连接。尺度间的连接构建了原始序列的多分辨率表示：最细尺度上的节点对应于原始时间序列中的时间点（例如，每小时观测值），而较粗尺度下的节点代表分辨率较低的特征（例如，每日、每周和每月模式）。这种潜在的粗尺度节点最初是通过粗尺度构造模块引入的。另一方面，尺度内边缘通过将相邻节点连接在一起来捕获每个分辨率下的时间相关性。因此，该模型通过以较粗的分辨率捕获此类行为，从而使信号穿越路径的长度更短，从而为远距离位置之间的长期时间依赖性提供了一种简洁的表示。此外，通过稀疏的相邻尺度内连接，在不同尺度上对不同范围的时间依赖性进行建模，可以显著降低计算成本。简而言之，我们的主要贡献包括：

图1：序列数据的常用神经网络模型图。

表1：不同模型的复杂度和最大信号传播路径的比较，其中G是ETC中全局令牌的数量。实际上，G随L增加，因此ETC的复杂度是超线性的。

我们提出Pyraformer以紧凑的多分辨率方式同时捕获不同范围的时间相关性。为了区分Pyraformer和最先进的方法，我们从图1中的图形角度总结了所有模型。
理论上，我们证明，通过适当选择参数，可以同时达到O（1）的最大路径长度和O（L）的时间和空间复杂性。为了突出所提出模型的吸引力，我们在表1中进一步比较了不同模型的最大路径和复杂性。
在实验上，我们表明，在单步和长程多步预测的情况下，与原始Transformer及其变体相比，所提出的Pyraformer在各种真实世界数据集上产生了更准确的预测，但时间和内存成本更低。

2 相关工作

2.1 时间序列预测

时间序列预测方法大致可分为统计方法和基于神经网络的方法。第一组涉及ARIMA（Box&Jenkins，1968）和Prophet（Taylor&Letham，2018）。然而，这两种方法都需要分别拟合每一个时间序列，在进行长期预测时，它们的表现都相形见绌。

最近，深度学习的发展催生了基于神经网络的时间序列预测方法的巨大增长，包括CNN（Munir等人，2018）、RNN（Salinas等人，2020）和Transformer（Li等人，2019）。如前一节所述，CNN和RNN具有较低的时间和空间复杂性（即O（L）），但需要一条O（L）的路径来描述长期依赖性。我们请读者参阅附录A，以了解有关基于RNN的模型的更详细的综述。相比之下，Transformer（Vaswani等人，2017）可以通过O（1）步的路径有效地捕获长程依赖性，而复杂性从O（L）大幅增加到O（L²）。为了减轻这种计算负担，提出了LogTrans（Li et al.，2019）和Informer（Zhou et al.，2021）：前者限制序列中的每个点只能关注其前面2ⁿ步的点，其中n=1，2，···，而后者利用注意力得分的稀疏性，从而以引入更长的最大路径长度为代价显著降低复杂性（即O（L log L））。

2.2 稀疏Transformers

除了关于时间序列预测的文献外，在自然语言处理（NLP）领域，已经提出了大量方法来提高Transformer的效率。与CNN类似，Longformer（Beltagy等人，2020）计算局部滑动窗口或扩张滑动窗口内的注意力。尽管复杂性降低到O（AL），其中A是本地窗口大小，但有限的窗口大小使得难以在全局交换信息。因此，最大路径长度为O（L/A）。作为替代方案，Reformer（Kitaev等人，2019）利用位置敏感散列（LSH）将序列划分为多个桶，然后在每个桶中执行关注。它还使用可逆变换器来进一步减少内存消耗，因此可以处理非常长的序列。它的最大路径长度与桶的数量成正比，更糟糕的是，需要大量的桶来降低复杂性。另一方面，ETC（Ainslie等人，2020）为了全球信息交换引入了一组额外的全局令牌，导致O（GL）时间和空间复杂性以及O（1）最大路径长度，其中G是全局令牌的数量。然而，G通常随L增加，因此复杂性仍然是超线性的。类似于ETC，所提出的Pyraformer也引入了全局令牌，但以多尺度的方式，成功地将复杂性降低到O（L），而不增加原始Transformer中最大路径长度的阶数。

2.3 分级Transformers

(10月19日10:36)

(11月1日16:47 拖了很久了，我又来了)

(今天是11月30日16:00，11月的最后一天，我又开始要写论文了，还是要看。环境配出来了，也跑了，效果不好，还是要继续改，最近又要投。)

最后，我们简要回顾了提高Transformer捕获自然语言层次结构能力的方法，尽管它们从未用于时间序列预测。HIBERT（Miculiich等人，2018）首先使用Sent编码器提取句子的特征，然后将文档中句子的EOS标记形成新序列，并将其输入Doc编码器。然而，它专门用于自然语言，不能推广到其他序列数据。多尺度变换器（Subramanian等人，2020）使用自上而下和自下而上的网络结构学习序列数据的多尺度表示。这样的多尺度表示有助于减少原始Transformer的时间和内存成本，但它仍然存在二次复杂性的缺陷。或者，BP Transformer（Ye等人，2019）递归地将整个输入序列分成两个，直到一个分区只包含一个令牌。然后，分割的序列形成二叉树。在关注层中，每个上尺度节点可以关注自己的子节点，而下尺度的节点可以关注相同尺度的相邻A节点和所有较粗尺度的节点。请注意，BP Transformer使用零以较粗的比例初始化节点，而Pyraformer使用构造模块以更灵活的方式引入较粗的节点。此外，BP Transformer与比Pyraformer更密集的图相关联，因此产生了更高的O（L log L）复杂性。

3 方法

时间序列预测问题可以表示为预测未来M个步z_t+1：t+M，给定之前的L个观察步z_t₋_L+1:t和相关协变量x_t₋_L+1：t+M（例如，一天中的小时）。为了实现这一目标，我们在本文中提出了Pyraformer，其总体架构如图2所示。如图所示，我们首先分别嵌入观测数据、协变量和位置，然后将它们相加，以与Informer相同的方式（Zhou等人，2021）。接下来，我们使用粗尺度构建模块（CSCM）构建多分辨率C元树，其中较粗尺度的节点汇总相应较细尺度的C节点的信息。为了进一步捕获不同范围的时间相关性，我们通过使用金字塔图中的注意力机制传递消息来引入金字塔注意力模块（PAM）。最后，根据下游任务，我们使用不同的网络结构来输出最终预测。在续集中，我们详细阐述了拟议模型的每一部分。为了便于说明，本文中的所有符号汇总在表4中。

图2：Pyraformer的体系结构：CSCM总结了不同规模的嵌入序列，并构建了多分辨率树结构。然后使用PAM在节点之间高效地交换信息。

(2022年12月1日19:47，呜呜呜呜，我是废物。)

3.1 金字塔注意力模块（PAM）

我们首先介绍PAM，因为它位于Pyrafomer的核心。如图1（d）所示，我们利用金字塔图以多分辨率方式描述观察到的时间序列的时间相关性。这种多分辨率结构已被证明是计算机视觉（Sun等人，2019；Wang等人，2021）和统计信号处理（Choi等人，2008；Yu等人，2018）领域中远程交互建模的有效工具。我们可以将金字塔图分解为两个部分：尺度间连接和尺度内连接。尺度间的连接形成一个C元树，其中每个父节点都有C个子节点。例如，如果我们将金字塔图的最细尺度与原始时间序列的每小时观测值相关联，则更粗尺度的节点可以被视为时间序列的每日、每周甚至每月特征。因此，金字塔图提供了原始时间序列的多分辨率表示。此外，通过简单地经由尺度内连接来连接相邻节点，更容易在较粗尺度中捕获长距离依赖性（例如，月依赖性）。换言之，较粗的尺度有助于以一种图形化的方式描述长期相关性，这种方式远比单一的、最精细的尺度模型所能捕捉到的要简洁得多。事实上，原始的单尺度Transformer（见图1（a））采用了一个完整的图，以最精细的尺度连接每两个节点，以便对长距离依赖关系进行建模，从而产生了一个具有O（L²）时间和空间复杂性的计算负担模型（Vaswani等人，2017）。与之形成鲜明对比的是，如下图所示，所提出的Pyraformer中的金字塔图将计算成本降低到O（L），而不增加信号穿越路径的最大长度的阶数。

在深入研究PAM之前，我们首先介绍原始的注意力机制。设X和Y分别表示单个注意力头部的输入和输出。注意，可以引入多个头部来从不同的角度描述时间模式。首先将X线性变换为三个不同的矩阵，即查询Q＝XW_Q、关键字K＝XW_K和值V＝XW_V，其中W_Q、W_K、W_V∈ R^L×D_K_。对于Q中的第i行q_i，它可以处理K中的任何行（即，键）。换句话说，对应的输出y_i可以表示为：

其中表示K中行ℓ 的转置。我们强调需要计算和存储的查询关键点积（Q-K对）的数量决定了注意力机制的时间和空间复杂性。从另一个角度看，这个数字与图中的边数成比例（见图1（a））。由于所有Q-K对都被计算并存储在全注意力机制（1）中，因此产生的时间和空间复杂性为O（L²）。

与上述完全关注机制相反，每个节点只关注PAM中有限的一组键，

(2022年12月2日 14:04，我怎么还没看完，你在干啥呢？？？！！)

(字符太多，懒得贴翻译了。)

此外，当尺度S的数量固定时，以下两个命题总结了所提出的金字塔注意力机制的时间和空间复杂性以及最大路径长度的顺序。我们请读者参阅附录C和D以获取证明。

命题1。对于给定的A和L，金字塔注意力机制的时间和空间复杂度为O（AL），当A是常数w.r.t.L时，它等于O（L）。

命题2。让图中两个节点之间的信号穿过路径表示连接它们的最短路径。那么，对于给定的A、C、L和S，金字塔图中两个任意节点之间的信号穿越路径的最大长度为O（S+L/C^S⁻¹/A），假设A和S是固定的，并且C满足方程（5），对于长度为L的时间序列，最大路径长度为O（1）。

在我们的实验中，我们固定了S和N，而A只能取3或5，而不考虑序列长度L。因此，所提出的PAM实现了O（L）的复杂性，最大路径长度为O（1）。注意，在PAM中，一个节点最多可以处理A+C+1个节点。不幸的是，现有的深度学习库（如Pytorch和TensorFlow）不支持这种稀疏的注意力机制。可以充分利用张量运算框架的PAM的一个简单实现是首先计算所有Q-K对之间的乘积，比如., 对于ℓ = 1，··，L，然后屏蔽掉. 然而，这种实现的时间和空间复杂性仍然是O（L2）。相反，我们使用TVM构建了专门用于PAM的定制CUDA内核（Chen等人，2018），实际上减少了计算时间和内存成本，并使所提出的模型适合长时间序列。较长的历史输入通常有助于提高预测精度，因为提供了更多的信息，特别是在考虑长期相关性时。

3.2 粗尺度构建模块（CSCM）

CSCM的目标是在金字塔图的较粗尺度上初始化节点，以便于后续PAM在这些节点之间交换信息。具体地，通过对相应的子节点 执行卷积，从下到上逐尺度地引入粗尺度节点. 如图3所示，在时间维度上，具有内核大小C和步长C的几个卷积层被顺序应用于嵌入序列，产生一个长度为L/C^s的序列，其尺度为s。不同尺度下的结果序列形成一个C元树。在将这些精细到粗略的序列输入PAM之前，我们将它们连接起来。为了减少参数和计算量，我们在将序列输入到堆叠的卷积层之前，将每个节点的维度减少一个完全连接的层，并在所有卷积之后将其恢复。这种瓶颈结构显著减少了模块中的参数数量，并且可以防止过度拟合。

图3：更粗规模的构建模块：B是批量大小，D是节点的维度。

3.3 预测模块

对于单步预测，我们在历史序列z_t−L+1:t的末尾添加一个结束标记（通过设置z_t+1=0），然后将其输入到嵌入层。在序列被PAM编码后，我们收集金字塔图中所有尺度上最后一个节点给出的特征，将它们连接起来，然后输入到完全连接的层中进行预测。

对于多步预测，我们提出了两个预测模块。第一个与单步预测模块相同，但将所有尺度上的最后节点映射到批处理中的所有M个未来时间步长。另一方面，第二个解码器使用具有两个全注意力层的解码器。具体而言，与原始Transformer（Vaswani等人，2017）类似，我们将未来M个时间步长的观测值替换为0，以与历史观测值相同的方式嵌入它们，并将观测值、协方差和位置嵌入的总和作为“预测标记”F_p。然后，第一关注层将预测令牌F_p作为查询，将编码器F_e（即PAM中的所有节点）的输出作为关键字和值，并生成F_d1。第二关注层将F_d1作为查询，但将连接的F_d1和F_e作为关键字和值。历史信息F_e直接输入两个关注层，因为这些信息对于准确的长期预测至关重要。然后通过信道维度上的完全连接层获得最终预测。再次，我们一起输出所有未来预测，以避免Transformer的自回归解码器中的错误累积问题。

4 实验

4.1 数据集和实验设置

我们在四个真实世界数据集（包括Wind、App Flow、Electricity和ETT）上展示了所提出的Pyraformer的优势。前三个数据集用于单步预测，而后两个数据集则用于长期多步预测。关于数据描述和实验设置的更多细节，请参考附录E和F。

4.2 结果和分析

4.2.1 单步预测

我们在三个数据集上进行了单步预测实验：Electricity、Wind和App Flow。历史长度分别为169、192和192，包括结束令牌。我们将Pyrafomer与其他5种注意力机制进行了比较，包括原始的完全注意力（Vaswani等人，2017）、对数稀疏注意力（即LogTrans）（Li等人，2019）、LSH注意力（即Reformer）（Kitaev等人，2019年）、具有全局节点的滑动窗口注意力（即ETC）（Ainslie等人，2020年）、，以及扩张的滑动窗口注意力（即Longformer）（Beltagy等人，2020）。特别是对于ETC，选择了在最细尺度上具有相等间隔的一些节点作为全局节点。全局节点可以关注整个序列中的所有节点，所有节点都可以依次关注它（见图1（e））。所有模型的培训和测试方案都是相同的。我们进一步研究了预训练策略（见附录G）、加权采样器和硬样本挖掘在所有方法上的有用性，并给出了最佳结果。我们采用NRMSE（归一化RMSE）和ND（归一化偏差）作为评估指标（定义见附录H）。结果汇总在表2中。为了公平比较，除了完全注意之外，所有注意机制的总体点积数都控制在相同的数量级。

我们的实验结果表明，Pyraformer在NRMSE和ND方面优于Transformer及其变体，具有最少数量的查询关键点积（即Q-k对）。确切地说，可以从表2中收集到三个主要趋势：（1）提出的Pyraformer产生了最准确的预测结果，这表明金字塔图可以通过考虑不同范围的相关性来更好地解释时间序列中的时间相互作用。有趣的是，对于Wind数据集，稀疏注意力机制（即LogTrans、ETC、Longformer和Pyraformer）的表现优于原始的全注意力Transformer，这可能是因为数据包含大量零，而适当稀疏性的提升有助于避免过度拟合。（2） Pyraformer中Q-K对的数量最小。回想一下，这个数字表征了时间和空间的复杂性。值得注意的是，它比LogTrans少65.4%，比全注意力少96.6%。值得强调的是，在更长的时间序列中，这种计算增益将继续增加。（3） Pyraformer的参数数量略大于其他模型的参数数量，这是CSCM的结果。然而，该模块非常轻，与其他模型相比，在模型大小方面仅产生5%的开销。此外，在实践中，我们可以固定超参数A、S和N，并确保C满足。因此，CSCM引入的额外参数数量仅为。

4.2.2 长期多步预测

我们评估了Pyraformer在Electricity、ETTh1和ETTm1三个数据集上的长期预测性能。特别是对于ETTh1与ETTm1，我们同时预测了未来的油温和6个电力负荷特征，这是一个多变量时间序列预测问题。第3.3节中介绍的两个预测模块均针对所有模型进行了测试，表3中列出了更好的结果。

很明显，无论预测长度如何，Pyraformer仍然以最小数量的Q-K对实现所有数据集的最佳性能。更准确地说，与Informer（Zhou等人，2021）相比，当预测长度为168、336和720时，Pyraformer给出的ETTh1的MSE分别减少了24.8%、28.9%和26.2%。这再次支持了我们的信念，即在描述时间依赖性时，使用金字塔图更为有益。有趣的是，我们注意到，对于Pyraformer，第一个预测模块给出的结果优于第二个预测模块。一种可能的解释是，基于全注意力层的第二预测模块不能区分具有不同分辨率的特征，而基于单个全连接层的第一模块可以以自动方式充分利用这些特征。为了更好地阐明Pyraformer对长期预测的建模能力，我们请读者参考附录I，以获取有关合成数据的详细示例。

表3：长期多步预测结果。

4.2.3 速度和内存消耗

为了检查基于TVM实现的定制CUDA内核的效率，我们在图4中将经验计算时间和内存成本描述为序列长度L的函数。这里，我们仅将Pyraformer与Informer中的完全注意和prob-sparse注意进行了比较（Zhou等人，2021）。所有计算都是在具有Ubuntu 16.04、CUDA 11.0和TVM 0.8.0的12 GB Titan Xp GPU上执行的。图4显示，所提出的基于TVM的Pyraformer的时间和内存成本大约是L的线性函数，正如预期的那样。此外，TVM实现的时间和内存消耗可以比完全关注和问题稀疏关注的时间和存储器消耗小几个数量级，特别是对于相对较长的时间序列。事实上，对于12GB Titan Xp GPU，当序列长度达到5800时，所有注意力都会遇到内存不足（OOM）问题，然而Pyraformer的TVM实现仅占用1GB内存。当涉及到具有20000个时间点的序列时，即使Informer也会遇到OOM问题，而Pyraformer的内存成本仅为1.91GB，每批计算时间仅为0.082s。

图4：金字塔注意力的完全、概率稀疏和TVM实现之间的时间和内存消耗的比较：（a）计算时间；（b）存储器占用。

4.3消融研究

我们还进行了消融研究，以测量A和C、CSCM架构、历史长度和PAM对Pyrafomer预测精度的影响。结果如表7-10所示。关于结果的详细讨论见附录J。这里，我们只提供了主要发现的概述：（1）为了减少预测误差，最好用L增加C，但将A固定为一个小常数；（2）具有瓶颈的卷积在预测精度和参数数量之间取得了平衡，因此，我们将其用作CSCM；（3）更多的历史有助于提高预测的准确性；（4） PAM对于准确预测至关重要。

5 结论和展望

在本文中，我们提出了Pyraformer，这是一种基于金字塔注意力的新模型，它可以有效地描述短时间和长时间依赖性，同时具有低的时间和空间复杂性。具体地说，我们首先利用CSCM构建C元树，然后设计PAM以在尺度间和尺度内传递消息。当序列长度L增加时，通过调整C和固定其他参数，Pyraformer可以实现理论上的O（L）复杂度和O（1）最大信号穿越路径长度。实验结果表明，所提出的模型在单步和长程多步预测任务方面都优于最先进的模型，但计算时间和内存成本较低。到目前为止，我们只关注在构造金字塔图时A和S固定且C随L增加的情况。另一方面，我们在附录I中表明，超参数的其他配置可以进一步提高Pyraformer的性能。在未来的工作中，我们将探索如何从数据中自适应地学习超参数。此外，将Pyraformer扩展到其他领域，包括自然语言处理和计算机视觉也是很有意思的。

特别鸣谢

附录

A 基于RNN的相关模型综述

在本节中，我们简要回顾了相关的基于RNN的模型。HRNN（Costa juss`a&Fonolosa，2016）和HMRNN（Chung等人，2019）成功捕获了多尺度时间依赖性。前者需要专家知识将序列划分为不同的分辨率，而后者则从数据中自动学习分区。注意，在两个模型中，信号穿越路径的理论最大长度仍然是O（L）。另一系列工作旨在通过向LSTM添加残余连接（Kim等人，2017）或扩张连接（Chang等人，2017年）来缩短信号穿越路径。然而，他们没有明确地考虑多分辨率时间相关性。此外，所有上述RNN仅在从过去到未来的一个方向上传播信息。允许双向信息交换的一种吸引人的方法是Bi-LSTM（Schuster，1996）。尽管通过两个不同的LSTM实现了前向和后向传播，因此仍然会导致较长的信号穿越路径。

与上述基于RNN的模型相反，所提出的Pyraformer实现了能够更好地描述时间相关性的双向信息交换，同时提供了观测序列的多分辨率表示。我们还注意到，由于RNN的单向性，很难基于RNN实现图1d中的金字塔图。

B 引理1的证明

证明。设S表示金字塔图中尺度的数量，C表示更精细尺度中s-1的子节点的数量，较粗尺度s中的节点可以总结为s=2，··，S，A表示节点在每个尺度内可以关注的相邻节点的数量，N表示关注层的数量，L表示输入时间序列的长度。我们将图中任意节点n_a的术语“接受域”定义为n_a可以从中接收消息的节点集合。我们进一步将图中两个任意节点之间的距离定义为它们之间最短路径的长度（即，从一个节点到另一个节点的步数）。注意，在每个关注层中，消息只能在图中移动一步。

(2022年12月2日20:23)

在不牺牲一般性的前提下，我们假设L可被C^S-1整除，则最粗尺度S处的节点数为L/C^S⁻¹.由于每个节点都连接到相同尺度的A个最近节点，因此最粗尺度的最左侧节点和最右侧节点之间的距离为2（L/C^S⁻¹− 1） /（A − 1)。因此，在金字塔注意力的N ≥ 2(L/C^S−1 − 1)/(A − 1)层堆叠之后，最粗尺度中的最左侧和最右侧节点处于彼此的感受野中。此外，由于CSCM，最粗尺度上的节点可以被视为更细尺度上节点的汇总。结果，当满足方程（4）时，最粗尺度上的所有节点都具有全局感受野，由此得证。

E 数据集

我们在以下四个数据集上演示了所提出的Pyraformer的优点。前三个数据集用于单步预测，而后两个数据集则用于长期多步预测。

Wind：该数据集包含1986年至2015年间28个国家每小时的能源潜力估计值，以发电厂最大产量的百分比表示。与剩余的数据集相比，它更稀疏，并且周期性地呈现出大量的零。由于这个数据集的规模很大，训练集和测试集之间的比率大约为32:1。

App Flow：该数据集由Ant Group收集。它包含部署在16个逻辑数据中心的128个系统的每小时最大流量，总共产生1083个不同的时间序列。每个系列的长度超过4个月。每个时间序列分为两个部分，分别进行训练和测试，比例为32:1。

Electricity（Yu等人，2016）：该数据集包含370个用户每15分钟记录的耗电量时间序列。根据DeepAR（Salinas等人，2020），我们每4个记录汇总一次，以获得每小时的观测结果。该数据集用于单步和长期预测。我们使用2011-01-01至2014-09-01的数据进行单步预测，并使用2011-04-01至2014-04-01的数据进行长期预测。

ETT（Zhou等人，2021）：该数据集包含从2个站点收集的2台变压器的2年数据，包括油温和6个电力负荷特征。提供每小时（即ETTh1）和每15分钟（即ETTm1）的观测。该数据集通常用于长期预测的模型评估。在这里，我们跟踪了Informer（Zhou等人，2021），并将数据分为12个月和4个月，分别用于训练和测试。

F 实验设置

在所有实验中，我们为Pyraformer设置S=4和N=4。当历史长度L不能被C整除时，我们只引入⌊L/C⌋ 上限中的节点，其中⌊·⌋ 表示向下舍入操作。最后一个L− (⌊L/C⌋ − 1）底部尺度上的C个节点都连接到上一层尺度上的最后一个节点。对于单步预测，我们在所有实验中设置C=4、A=3和H=4。训练和测试都使用固定大小的历史序列来预测单个未来值的高斯分布的均值和方差。我们选择MSE损失和对数似然性（Zoo等人，2020）作为损失函数。他们之间的比率设置为100。为了优化，我们使用Adam，学习率从10⁻⁵开始，每个时期减半。我们用10个时期训练了Pyrafomer。使用基于每个窗口平均值的加权采样器和硬样本挖掘来提高网络的泛化能力。另一方面，对于长期预测，我们在每个实验中测试了A和C的四种组合，并给出了最佳结果。具体而言，当预测长度小于600时，我们测试了A=3，5和C=4，5。当预测长度大于600时，测试了A=3，5和C=5，6。表5列出了每个实验的超参数选择。此外，损失函数仅为MSE损失。我们仍然使用Adam作为优化器，但学习率从10⁻⁴开始，每epoch减少到十分之一。我们将epoch数设置为5。

表5：远程实验的超参数设置。

G 预处理

对于单步预测，要预测的值通常接近历史的最后一个值。由于我们只使用所有尺度的最后一个节点来预测，网络往往只关注短期依赖性。为了迫使网络捕获长期依赖性，我们在训练的前几个阶段添加了额外的监督。具体来说，在第一个时期，我们将网络形成为一个自动编码器，如图5所示。除了预测未来值之外，PAM还被训练以恢复输入值。注意，我们测试了使用和不使用此预训练策略的所有方法，表2中显示了更好的结果。

图5：一步预测的预训练策略。连接由虚线椭圆包围的节点的特征以恢复相应的输入值。

I 合成数据实验

为了进一步评估Pyraformer捕获不同范围的时间相关性的能力，我们合成了一个具有多范围相关性的每小时数据集，并对其进行了实验。具体而言，合成数据集中的每个时间序列是不同周期的三个正弦函数的线性组合：24、168和720，即，

在上述方程中，每个时间序列的三个正弦函数β1、β2和β3的系数从[5，10]中均匀采样。β0是具有协方差函数∑_t1，t2=|t₁− t₂|⁻¹和∑_t1＝∑_t2＝1的高斯过程，其中t1和t2表示两个任意的时间戳。已知这种多项式衰减协方差函数具有长程相关性，与指数衰减协方差函数相反（Yu等人，2019）。从[0，719]均匀地采样每个时间序列t₀的开始时间。我们首先生成长度为14400的60个时间序列，然后将每个时间序列拆分为宽度为1440的滑动窗口，步长为24。在我们的实验中，我们使用历史上的720个时间点来预测未来的720个点。由于合成时间序列的确定性部分和随机部分都具有长期相关性，因此模型中应充分捕捉此类相关性，以便对下一个720点进行准确预测。结果总结在表6中。这里，我们考虑了Pyraformer的两种不同配置：1）对于金字塔图中的所有尺度（表示为Pyraformer_6,6,6），C=6；2）对于从下到上依次排列的三个层，C＝12，7和4（表示为Pyraformer_12,7,4）。

表6：合成数据集的长期预测结果。

可以观察到，对于所有尺度，具有相同C的Pyraformer_6,6,6已经大大优于基准方法。特别是，与Reformer相比，Pyraformer给出的MSE降低了18.2%，这是Transformer现有变体中最小的MSE。另一方面，通过利用已知周期的信息，Pyraformer_12,7,4的性能甚至优于Pyraformer _6,6,6。请注意，在Pyraforme 12、7和4中，尺度2、3和4的节点表征了分别对应于半天、半周和半月的粗略时间分辨率。我们还测试了Pyraformer24、7、4，但在第二个尺度中设置C=24会降低性能，这可能是因为内核大小为24的卷积层很难训练。

我们在图6中进一步可视化了Pyraformer_12,7,4产生的预测结果。蓝色实线和红色虚线分别表示真实和预测的时间序列。通过捕获具有不同范围的时间相关性，Pyraformer得出的预测与地面真相密切相关。

图6：合成数据集上预测结果的可视化。

另一方面，为了检查Pyraformer是否可以提取具有不同时间分辨率的特征，我们在图7中的金字塔图中的每个尺度上描绘了在时间上随机选择的通道中提取的特征。很明显，较粗尺度上的特征可以被视为较细尺度上的较低分辨率版本的特征。

图7：不同尺度下第二通道中提取的特征在时间上的可视化：（a）尺度1；（b）尺度2；（c）尺度3。

J 消融研究

J.1 A和C的影响

我们研究了A和C对Pyraformer进行长期时间序列预测的性能的影响，并将结果显示在表7中。这里，我们关注数据集ETTh1。历史长度为336，预测长度为720。从表7中，我们可以得出结论，PAM中最粗尺度节点的感受野在降低Pyraformer的预测误差方面起着不可或缺的作用。例如，当C＝2时，最粗尺度上有42个节点。如果没有尺度内连接，每个节点只能从最细尺度上的16个节点接收消息。随着每个尺度中相邻连接A的数量增加，最粗尺度节点的感受野也扩展，因此预测误差相应地减小。然而，只要最高尺度的节点具有全局接受场，进一步增加a不会带来大的增益。对于C=5，即使A增加，性能也不会改善。这样的观察表明，一旦PAM中的最上层节点具有全局感受野，最好将A设置为较小。在实践中，我们只随着L的增加而增加C，但保持A较小。

表7：A和C对长期预测的影响。历史长度为336。

J.2 CSCM架构的影响

除了卷积之外，还存在其他构造C元树的机制，例如最大池和平均池。我们研究了不同CSCM架构对数据集ETTh1上的长期预测性能的影响。对于所有机制，历史和预测长度均为168和C=4。结果列于表8中。从表8中可以看出：（1）使用池化层而不是卷积通常会降低性能。然而，基于最大池的Pyraformer的性能仍然优于Informer，这表明PAM在Informer中优于问题稀疏注意。（2）具有瓶颈的卷积的MSE仅比没有瓶颈的卷积大1.51%，但参数数量减少了几乎90%。因此，我们采用了更紧凑的具有瓶颈的卷积模块作为CSCM。

表8:CSCM架构对长期预测的影响。归一化层引入的参数相对较少，因此被忽略。

J.3 历史长度的影响

我们还检查了历史长度对预测精度的影响。数据集是ETTm1，因为它的粒度很小，并且包含更多的长期依赖关系。我们将预测长度固定为1344，并在表9中将历史长度从84更改为1344。正如预期的那样，较长的历史通常会提高预测精度。另一方面，当引入更多历史记录并停止提供新信息时，性能增益开始趋于稳定。如图8所示，长度为672的时间序列包含几乎所有对预测至关重要的周期性信息，而长度为1344的时间序列引入了更多的噪声。

表9：历史长度的影响。预测长度为1344。

图8:ETTm1数据集中不同长度的时间序列。（a）和（b）中的序列长度为672，（c）和（d）中的长度为1344。（a）与（b）的时间序列分别对应于（c）与（d）的后半部分。

J.4 PAM的影响

最后，我们研究了PAM的重要性。我们在数据集ETTm1上比较了使用PAM和不使用PAM的Pyraformer的性能。为了公平比较，两种方法的参数数量被控制在相同的数量级内。更准确地说，我们增加了“Conv。“w/瓶颈”仅适用于具有CSCM的模型。结果如表10所示。显然，PAM对于产生准确预测至关重要。

表10：PAM的影响。

K 关于超参数选择的讨论

我们建议首先基于可用的计算资源来确定关注层的数量N，因为该数量与模型大小直接相关。接下来，可以通过时间序列的粒度来确定尺度S的数量。例如，对于每小时的观察，我们通常假设它也可能有每天、每周和每月的时段。因此，我们可以将S设置为4。然后我们将重点放在A和C的选择上。根据消融研究，我们通常倾向于较小的A，例如3和5。最后，为了确保网络具有L的接受野，我们可以选择满足方程（5）的C。在实践中，我们可以使用验证集从满足（5）的候选项中选择C。同样值得检查的是，根据时间序列的粒度为不同的尺度选择不同的C是否可以像我们在附录I中所做的那样进一步提高性能。

(2022年12月3日15:40看完。终于结束，整理一下，要改代码了。)

posted @ 2022-12-03 15:46 ZERO- 阅读(3594) 评论(0) 收藏举报

刷新页面返回顶部

Persistent.

昨日种种，皆成今我，切莫思量，更莫哀，从今往后，怎么收获，怎么栽.

Pyraformer: 用于长时间序列建模和预测的低复杂度金字塔注意力《Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting》(金字塔注意力模块机制、PAM、CSCM、多尺度)

公告