【论文翻译】MPSTAN:基于元种群的时空注意力网络,用于流行病预测
摘要 准确的流行病预测对政府制定有效的防控措施至关重要。目前大多数时空模型无法提供稳定、准确地预测具有不同演化趋势的流行病的通用框架。将流行病学领域知识从单个区域到多个区域纳入神经网络中,有望提高预测的准确性。然而,仅依赖单个区域的知识会忽视区域间的相互作用,而构建多区域知识在没有人口流动数据的情况下会面临挑战。为解决上述问题,我们提出了一种新颖的混合模型,名为基于元种群的时空注意力网络(MPSTAN)。该模型旨在通过将多区域流行病学知识纳入时空模型并自适应地定义区域间的相互作用来提高流行病预测的准确性。此外,我们将区域间的流行病学知识同时融入模型构建和损失函数中,以帮助模型学习流行病传播动态。我们在两个具有不同流行病演化趋势的代表性数据集上进行了广泛实验,结果显示我们提出的模型优于基线模型,并提供更准确、更稳定的短期和长期预测。我们确认了领域知识在学习模型中的有效性,并研究了不同整合领域知识方式对预测的影响。我们观察到,在模型构建和损失函数中同时使用领域知识可以更有效地进行预测,并且选择合适的领域知识可以进一步提高准确性。
关键词 元种群传染病;传染病预测;时空特征;图注意力网络
1.介绍
在过去几年中,COVID-19已成为对人类生命和全球经济的重大威胁。由于其高度传染性,数百万人已被感染,给医疗系统和社会秩序带来巨大压力[1]。因此,政府和公共卫生部门制定有效的疫情预防策略势在必行,准确预测疫情未来演变是预防疾病传播、减轻其对公共卫生和经济的影响、提高医疗服务质量和效果的关键因素[2]。
传统的流行病预测模型采用由微分方程构建的区室模型,在区域水平上模拟流行病的潜在传播动态,如SIR模型[3]、SEIR模型[4]及其变体[5,6]。以SIR模型为例,估计单个区域内易感、感染和恢复个体数量的波动,以了解特定区域内的流行病动态。许多传统的时间序列方法可以直接预测疫情爆发的时间依赖性,如ARIMA[7]、SVR[8]等。近年来,深度学习在时间序列预测领域得到了广泛的应用,并提出了几个优秀的模型,包括LSTM[9]、GRU[10]、Transformer[11]和Neural ODE[12]。这些模型旨在有效地处理时间序列数据的独特属性,如时间相关性、周期性等。
然而,上述方法只考虑了数据的时间依赖性,而忽略了空间依赖性,可能导致预测结果不够准确。原因在于,一个区域的流行演变不仅受其自身因素(如感染规模、医疗资源等)的影响,还受外部因素(如来自其他区域的人员流动)的影响[13]。因此,考虑空间相关性对提高流行病学趋势分析和预测的准确性至关重要。基于图的算法的发展为研究者将疫情预测作为一个时空预测问题提供了有力的工具[14,15]。人们提出了多种方法[16-18]进行流行病的时空预测。本质上,这些方法构建了一个图来预测多区域流行病。每个区域表示为一个节点,每个区域的历史数据(如感染病例、康复病例、住院情况和ICU入院情况)用作节点特征。通过对疫情数据的时空依赖性进行建模,这些方法可以捕捉潜在的时空相关性,从而预测疫情传播的未来趋势。得益于交通流领域的时空预测工作,大多数时空模型也可直接应用于流行病预测,如[19-21]。
然而,流行病学演变趋势可能因疫情爆发的时间、地区和预防措施而有很大差异。我们分别在图1中显示了不同记录时间美国和日本的活跃病例数。如图1所示,这两个数据集显示了完全不同的流行病学演变趋势。图1(a)表明疫情仍在继续,图1(b)表明疫情已得到控制,其中的不同趋势反映了疫情传播动态的巨大差异。传统的时空模型只发现了输入和输出数据之间的非线性映射关系,没有发现底层的物理信息,这也使得在面对复杂趋势时难以提供稳定准确的预测[22]。针对这一问题,[23]指出单纯将深度学习应用于疫情预测是不合理的。此外,理论指导的数据科学表明,将领域知识纳入数据驱动模型有助于提高算法性能[24]。因此,研究人员试图利用流行病学领域的知识来帮助模型更好地了解流行病的潜在动态。一些研究如[25-27]将SIR、SIRD等单区域流行病模型纳入时空模型,为神经网络提供了有意义的流行病学背景,提高了流行病预测的性能。然而,他们忽略了区域间的流行病传播,因此一些研究者[28]利用人口流动数据构建了一个元种群流行病传播模型,并利用该领域知识训练学习模型。
虽然现有的方法在这一领域取得了成功,但我们发现了以下问题:
- 现有方法大多未能充分利用更合理的流行病学领域知识来帮助模型训练。他们利用领域知识,要么忽略区域间的相互作用[25,26],要么需要额外的人口流动数据来构建区域间的相互作用[28]。后一种方法严重依赖于人口流动数据,但在区域之间收集人口流动数据本身具有挑战性和不准确性,这也会使模型产生偏差。
- 现有的基于领域知识的模型大多没有详细分析领域知识对模型训练的有效性。大多数方法仅将流行病学领域知识应用于损失函数[26,28],也有一些作品同时将流行病学知识应用于模型构建[27]。然而,这些方法并没有分别详细分析领域知识在模型构建和损失函数方面对流行病预测的有效性。
为了解决上述问题,我们提出了一种新的方法——基于元种群的时空注意力网络(MPSTAN)。MPSTAN采用考虑区域间迁移的MPSIR模型来帮助时空模型训练。具体来说,MP-SIR物理模型利用神经网络学习区域内和区域间的物理模型参数,从而能够自适应构建区域之间的相互作用。此外,我们认为不同的参数受到不同类型信息的影响。区域内参数主要表示给定区域内的流行病规模,反映每个州人口规模的时间变化。另一方面,区域间参数捕捉了区域间的人口流动性,也受到空间信息的影响。因此,我们设计了多个参数生成器,分别使用包含不同信息的数据作为输入来求解区域内参数和区域间参数。此外,我们将物理模型应用于MPSTAN模型的模型构建和损失函数,并深入分析了物理模型与学习模型相结合的不同方法在流行病预测中的有效性。此外,单一的物理模型不能准确地代表各种现实世界环境中潜在的流行病学动态。为了作出更准确的预测,有必要根据具体情况选择适当的流行病学物理模型。综上所述,本文的主要贡献如下:
- 提出了一种新的时空流行病预测模型,该模型采用自适应方法构建元种群流行病传播,并整合领域知识辅助神经网络训练。该时空模型不依赖于人口流动数据,能够准确预测流行病的传播。
- 设计了多个参数生成器,分别学习区域内和区域间的物理模型参数。由于不同的参数代表不同的信息,我们利用包含不同信息的嵌入表示分别馈送到每个参数生成器中,以学习相应的物理模型参数。
- 通过比较流行病学领域知识在神经网络中的不同整合方法,揭示了流行病学领域知识在流行病时空预测中的重要意义。同时,我们强调在实际情况下选择合适的领域知识来模拟潜在的流行病传播至关重要。
- 我们进行了大量的实验来验证MPSTAN在两个具有不同流行病学演变趋势的数据集上的性能。结果表明,MPSTAN对不同的疫情演变具有准确的短期和长期预测能力和推广能力。
本文的其余部分结构如下:第2节介绍了相关工作。第3节描述了我们提出的模型的详细设计。第4节演示了实验结果,并对结果进行了分析。最后,在第5节中对整个工作进行了总结。
2.相关工作
目前提出的流行病预测方法有四大类:传统数学模型、时间序列模型、传统时空模型和基于领域知识的时空模型。
传统数学模型:早期的研究人员使用流行病传播模型或传统的时间序列模型来预测未来的流行病趋势。[29]采用SIR模型预测流行病,并指出简单的SIR模型与流行病特征不一致。[6,30]在SIR模型的基础上提出了一系列变型模型,以更好地适应复杂多变的疫情传播。此外,由于数据的时间序列性,传统的时间序列模型可以直接用于疫情预测。[31]通过ARIMA预测流行病的流行和发病率。[8]利用SVR拟合流行病学数据,但由于日常数据中存在大量峰值,导致拟合效果不佳。这些方法的优点在于结构简单,计算成本低,但这也意味着难以有效地提取潜在的复杂非线性机制。
时间序列模型:深度学习由于其强大的非线性映射能力被广泛应用于时间序列预测,其中RNN及其变体LSTM和GRU经常被用于捕获时间依赖性。[32,33]认为流行病预测是一个时间序列预测问题,主要使用LSTM及其变体进行流行病预测,而[34]提出了一种双分支LSTM来汇总不同层次的流行病学信息。注意机制也常用于时间序列预测,如[35]提出了一种基于变压器的模型来预测流感病例的变化,并设计了新的损失函数来避免目标值的性能下降。此外,[36]将变压器与LSTM相结合,进行了有效的短期和长期疫情预测。时间序列预测模型通常只考虑时间相关性而不考虑空间相关性。然而,在流行病传播的情况下,这些模型忽略了区域间相互作用对流行病演变的影响。因此,仅依靠时间依赖性可能导致不准确的流行病预测。
传统的时空模型:大量研究表明,图卷积网络(Graph Convolutional Network, GCN)在处理具有空间结构的数据方面表现出优越的效果[37,38],疫情传播由于其空间性质,可以自动转化为图结构[39,40]。[16]使用时间序列数据作为GCN的输入进行疫情预测。[17]提出了一种动态的位置感知注意机制来捕捉区域之间的空间关系。[18]在时空模型中融合多模态信息,探索疫情传播过程中的区域相关性。由于时空特征的固有性质,其他领域的模型也可以应用于流行病预测,如[21]提出自适应邻接矩阵来学习图中节点之间的关系,[41]选择并行建模时空维度,因为序列神经网络结构的复杂映射可能导致原有的时空关系发生变化,[42]将neural ODE与GCN相结合,提出了一种基于张量的模型,该模型同时对时空依赖关系进行建模,避免了模型表示能力的限制。然而,缺乏物理信息的传统时空模型难以拟合潜在的复杂动态[43]。
基于领域知识的时空模型:一些研究将流行病学领域知识纳入神经网络。[25]利用时空模型预测感染率,并结合SIR模型预测感染病例。[26]构建了一种物理导向的动态约束模型,该模型利用SIR模型约束神经网络预测中的传播动态。这种动态约束是基于感染率和恢复率,以及前一刻的数据,递归地推导预测值。此外,[27]提出了一种基于SIRD模型的因果编码器-解码器结构,该结构不仅适用于损失函数,还可迭代地用于模型构建。然而,这种领域知识(SIRD模型)忽略了区域之间的相互作用。此外,[28]结合人口流动数据构建了元种群流行病传播模型,并将该领域模型纳入神经网络,以帮助了解潜在的流行病传播动态。尽管如此,值得注意的是,移动数据的准确性和完整性会显著影响其性能。
3.方法
在本节中,我们首先给出流行病预测的问题描述。然后,我们概述了所提出的模型和模块的详细信息。
3.1. 问题描述
我们使用图 \(G(\mathcal{V} ,\mathcal{E} )\) 来表示空间网络,其中\(\mathcal{V}\)表示 \(N\) 区域的集合,\(\mathcal{E}\)表示区域之间的边的集合。邻接矩阵 \(A \in \mathbb{R} ^{N\times N}\)表示区域之间的连接。特别地,我们使用引力模型[44]构造邻接矩阵。区域 \(i\) 和 \(j\) 之间的边权重 \(w_{ij}\) 定义为:
\(\begin{aligned}
w_{ij}=p_{i}^{\alpha_{1}}p_{j}^{\alpha_{2}}e^{-\frac{d_{ij} }{r}},
\end{aligned}\)
其中 \(p_{i}\) ( \(p_{j}\) ) 表示区域 \(i\) ( \(j\) )的总体大小, \(d_{ij}\) 表示区域 \(i\) 和 \(j\) 之间的距离。 \(\alpha_{1}\) 、\(\alpha _{2}\)、 \(r\)是超参数。这表明如果一对区域之间的人口规模较大且距离较近,则区域之间的流行病传播相关性较强。我们进一步为所有区域选择最大\(E\)边权重,以使邻接矩阵稀疏,从而降低计算复杂度。如果 \(w_{ij}\)属于区域 \(i\) 的最大 \(E\) 边权重集合,则\(A_{ij}=1\) ,否则为 \(A_{ij}=0\) 。
我们使用\(\mathcal{X} =[X_{1},X_{2},...,X_{T}]\in \mathbb{R} ^{N\times T \times C}\)表示时空图特征矩阵,其中 \(X_{t}\) 、 \(t\in \left [ 1,T \right ]\) 是时间步\(t\) 处的图特征矩阵, \(C\)是节点特征的数量。这里,节点特征包括每日活跃病例数、每日康复病例数和每日易感病例数。对于流行病预测,我们的目标是学习一个函数\(f(\cdot)\) ,该函数使用历史 \(T\) 时间步的邻接矩阵 \(A\) 和节点特征矩阵\(X_{t-T:t}\) 作为输入来预测未来 \({T}'\) 时间步的每日活跃病例数\(Y_{t+1:t+{T}'}\) 。该问题可以表述如下:
\(
[X_{t-T+1},X_{t-T+2},...,X_{t};A]\overset{f(\cdot )}{\rightarrow} [Y_{t+1},Y_{t+2}...,Y_{t+{T}' } ].
\)
3.2. 模型概述
MPSTAN模型的总体框架如图2所示。该模型采用循环结构,每个模型单元包含四个模块,即时空模块、流行病学模块、多参数生成模块和信息融合模块。首先,我们使用时空模块从输入数据中学习时空信息。然后将学习到的时空信息传递给参数生成模块,学习流行病学模型的流行病学参数。再将输入和学习到的参数传递给流行病学模块,实现流行病预测。最后,在信息融合模块中,将学习到的时空信息与物理预测信息进行融合,将融合后的信息输出到下一时间步MPSTAN单元中。
图2:MPSTAN模型框架。
3.3. 时空模块
时空模块利用时空特征矩阵\(\mathcal{X} \in \mathbb{R} ^{N\times T \times C}\)和邻接矩阵\(A \in \mathbb{R} ^{N\times N}\)来学习疫情数据的时空信息。该模块将图注意网络(GAT)嵌入到门控循环单元(GRU)中,学习空间依赖性和时间依赖性。
时间嵌入。最初,GRU由于能够有效地对时间序列进行建模而被广泛用于时间序列预测,因此,我们使用
GRU 来学习每个区域的时间嵌入。在 GRU 中, \(Z_{t}\) 、 \(R_{t}\) 表示时间步 \(t\)处的更新门和重置门, \(\widetilde{H }_{t}\) 表示时间步 \(t\)处的隐藏嵌入, \(H_{t-1}\) 表示时间步 \(t-1\) 处 MPSTAN 单元的输出,\(H_{temp,t}\)表示包含时间步的输出时间步 \(t\) 的依赖性:
\(\begin{aligned}
&Z_{t} =\sigma (W_{z}X_{t}+U_{z}H_{t-1}+b_{z} ), \\
&R_{t} =\sigma (W_{r}X_{t}+U_{r}H_{t-1}+b_{r} ), \\
&\widetilde{H }_{t}=\tanh (W_{h}X_{t}+U_{h}(R_{t}\odot H_{t-1} )+b_{h} ), \\
&H_{temp,t}=Z_{t}\odot H_{t-1}+(1-Z_{t}) \odot \widetilde{H_{t} },
\end{aligned}\)
其中 \(\odot\) 表示逐元素乘法, \(W_{z}\) 、 \(W_{r}\) 、 \(W_{h}\)、 \(U_{z}\) 、 \(U_{r}\) 、 \(U_{h}\) 、 \(b_{z}\) 、 \(b_{r}\) 、 \(b_{h}\)表示可学习参数。
空间嵌入。每个区域的疫情演化并不是独立的,而是在空间层面受到其他区域的影响。这与GAT类似,它结合了注意力机制来聚合来自邻居区域的信息并更新每个区域的嵌入。因此,我们使用两层多头GAT来捕获区域之间流行病进化的空间依赖性。首先,我们将每个区域的嵌入作为输入,并使用多头机制来计算\(K\)个独立注意力权重。第\(k\) 头的区域 \(i\) 和区域 \(j\) 之间的注意力权重(如\(e_{ij}^{k}\))由下式给出:
\(\begin{aligned}
e_{ij}^{k}=\sigma (W_{att}^{k}((W_{temp}^{k}H_{temp,t}^{i} )\parallel (W_{temp}^{k}H_{temp,t}^{j} ) )),
\end{aligned}\)
其中 \(W_{att}^{k}\) 、 \(W_{temp}^{k}\) 表示第 \(k\)头的可学习参数, \((\cdot \parallel \cdot )\) 表示向量串联, \(\sigma\)表示非线性激活函数, \(e_{ij}^{k}\) 省略下标 \(t\) 。
然后,我们使用softmax函数计算所有边的注意力分数。第 \(k\) 头的区域\(i\)和区域 \(j\) 之间的注意力分数与即\(a_{ij}^{k}\) 表示为:
\(a_{ij}^k=Softmax(e_{ij}^k).\)
最后,注意力分数用于聚合来自相邻区域的信息并更新区域嵌入\(H_{st}\in \mathbb{R} ^{N\times D_{st}}\),其中 \(D_{st}\)表示每个区域的嵌入维度。区域\(i\) 作为 \(H_{st}^{i}\) 的嵌入计算如下:
\(H_{st}^i=\dfrac{1}{K}\sum_{k=1}^K\sum_{j\in\mathcal{N}_i}a_{ij}^kW_{temp}^kH_{temp,t}^j,\)
其中\(\mathcal{N}_{i}\)表示区域\(i\)的邻居集。如果是\(A_{ij}=1\) ,则表明区域\(j\)属于区域\(i\)的邻居集合。
3.4. 流行病学模块
我们观察到,仅使用时空模型进行流行病预测的结果并不准确也不稳定,并且对于具有不同流行病学演变趋势的数据集(例如,爆发,爆发后得到控制)的预测也非常具有挑战性[22]。因此,一些作品选择使用流行病学领域知识来帮助模型训练,如[26,27]。这些工作主要使用划分模型作为领域知识,例如SIR模型。SIR模型是流行病传播中最典型的模型,其中S表示易感个体,I表示感染个体,R表示康复个体。该模型使用三个微分方程来表示区域中三种状态总体的变化次数:
\(\begin{aligned}
&\frac{dS_{i}}{dt}=-\beta_{i}I_{i} \frac{S_{i} }{N_{i} }, \\
&\frac{dI_{i} }{dt}=\beta_{i}I_{i}\frac{S_{i} }{N_{i} }-\gamma_{i}I_{i}, \\
&\frac{dR_{i} }{dt}=\gamma_{i} I_{i},
\end{aligned}\)
其中\(\beta_{i}\)和 \(\gamma_{i}\) 表示区域\(i\in \left [ 1,\dots,N \right]\)中流行病传播的感染率和恢复率。然而,SIR模型仅限于模拟单个区域内的流行病传播,而忽略了区域间的相互作用。因此[28]利用人口流动数据构建了元种群流行病模型,并利用神经网络迭代计算每日确诊病例数。此外,还可以利用其他流动性变化数据(如GPS轨迹数据)构建元种群流行病模型。然而,准确收集人口流动数据具有挑战性,其他数据可能无法充分反映实际的人口流动模式。
为了克服数据可用性的限制,我们开发了一种自适应方法来定义区域间的相互作用,并构建了一个不依赖于流动性数据的元种群流行病模型,称为基于元种群的SIR (MP-SIR)模型。MP-SIR模型是在原有SIR模型的基础上,用区域间迁移率参数表示区域间各状态下种群的迁移率:
\(\begin{aligned}
&\frac{dS_{i} }{dt}=-\beta_{i}I_{i}\frac{S_{i} }{N_{i} }-D_{i}^{S} S_{i} +\sum_{j\in \mathcal{N} _{i} }^{}P(j\mid i) D_{j}^{S} S_{j},
\quad \quad \quad \quad (13)
\\
&\frac{dI_{i} }{dt}=\beta_{i}I_{i}\frac{S_{i} }{N_{i} }-\gamma_{i} I_{i}-D_{i}^{I} I_{i} +\sum_{j\in \mathcal{N} _{i} }^{}P(j\mid i)D_{j}^{I} I_{j}, \\
&\frac{dR_{i} }{dt}=\gamma_{i} I_{i}-D_{i}^{R} R_{i} + \sum_{j\in \mathcal{N} _{i} }^{}P(j\mid i)D_{j}^{R} R_{j},
\end{aligned}\)
其中\(P(j\mid i)\)表示区域\(j\)到区域\(i\)的移动概率,而\(D_{i}^{S}\) 、 \(D_{i}^{I}\) 、 \(D_{i}^{R}\)表示区域\(i\)中易感、感染和康复个体的移动率。
拿方程式13举例,对于区域\(i\)内感染个体数量的变化受到四个方面的影响:(i)易感个体\(S_i\)在与感染个体\(I_i\)接触后以\(\beta_i\)的概率变为感染个体;(ii)区域\(i\)内的感染个体\(I_i\)以\(\gamma_i\)的概率康复;(iii)区域\(i\)内的感染个体\(I_i\)以速率\(D_i^I\)移动到其他区域;(iv)来自区域\(j\)的感染个体\(I_j\)以速率\(D_i^I\)向区域\(i\)移动。我们简单假设各区域迁移至其他相邻区域的概率相等。具体而言,区域\(j\)迁移到区域\(i\)的迁移概率\(P(j\mid i)\)计算如下:
\(\begin{aligned}
P(j\mid i)=\frac{1}{\left | \mathcal{N}_{j} \right | }.
\end{aligned}\)
我们使用神经网络生成块内和块间 MP-SIR 模型参数 \(P_{intra}=[\beta,\gamma]\in \mathbb{R} ^{N\times 2}\)、\(P_{inter}=[D^{S},D^{I},D^{R}]\in \mathbb{R} ^{N\times 3}\),并将在第3.5节中详细描述它们。最后,将疫情数据和生成的MP-SIR模型参数作为MP-SIR模型的输入,进行基于领域知识的疫情预测:
\(\begin{aligned}
&\Delta X_{phy,t}=MP\mbox{-}SIR(X_{t},P_{intra},P_{inter}), \\
&X_{phy,t+1}=X_{t}+\Delta X_{phy,t},
\end{aligned}\)
其中\(\Delta X_{phy,t}\in \mathbb{R} ^{N\times 3}\)表示时间步\(t\)时每个州的人数变化,\(X_{phy,t+1}=\left[X_{phy,t+1}^S,X_{phy,t+1}^I,X_{phy,t+1}^R \right ]\in \mathbb{R} ^{N\times 3}\)表示时间步\(t+1\)的疫情预测。
3.5. 多参数生成器模块
我们使用包含不同信息的嵌入来分别学习块内和块间物理模型参数\(P_{intra}\in \mathbb{R} ^{N\times 2}\)、\(P_{inter}\in \mathbb{R} ^{N\times 3}\),而不是直接使用包含时空信息的嵌入。区域内物理模型参数\(\beta\)、\(\gamma\)表示单个区域内的流行病演变,主要受时间依赖性影响;区域间物理模型参数\(D^{S}\)、\(D^{I}\)、\(D^{R}\)表示区域间种群流动性,主要受时间依赖性影响。受时空依赖性的影响。因此,我们通过将仅包含时间依赖性和时空依赖性的嵌入分别传递给两个全连接层来生成这两类物理模型参数:
\(\begin{aligned}
P_{intra}&=FC_{intra}(H_{temp,t} ), \\
P_{inter}&=FC_{inter}(H_{st} ).
\end{aligned}\)
3.6. 信息融合模块
在该模块中,神经网络预测 \(H_{st}\in \mathbb{R} ^{N\times D_{st}}\)和物理模型预测 \(X_{phy,t+1}\in \mathbb{R} ^{N\times 3}\)之间的信息被融合。首先,我们使用全连接层将 \(X_{phy,t+1}\) 映射到\(H_{phy}\in \mathbb{R} ^{N\times D_{st}}\),旨在使物理预测与神经网络预测保持相同的维度,
\(\begin{aligned}
H_{phy}=FC(X_{phy,t+1} ).
\end{aligned}\)
接下来,神经网络预测与物理预测相连接。最后,使用全连接层在时间步 \(t\)生成 MPSTAN 单元的最终输出 \(H_{t}\in \mathbb{R} ^{N\times D_{gru}}\),其中 \(D_{gru}\) 表示 GRU 的维度:
\(\begin{aligned}
H_{t}=FC(H_{st}\parallel H_{phy} ).
\end{aligned}\)
3.7. 输出层
MPSTAN模型的输出分为神经网络预测和物理模型预测两部分。
神经网络预测。我们使用 MPSTAN 的最终输出 \(H_{T}\in \mathbb{R} ^{N\times D_{gru}}\)作为全连接层的输入来预测接下来的 \({T}'\) 时间步长的所有区域中的感染个体\(Y^{st}\in \mathbb{R} ^{N\times {T}'}\)的数量:
\(\begin{aligned}
Y^{st}=FC_{pred}(H_{T}).
\end{aligned}\)
物理模型预测。最后一天的输入数据和最终训练的模型参数用作 MP-SIR模型的输入,以递归地预测下一个 \({T}'\) 时间步长的所有区域中的受感染个体\(Y^{phy}\in \mathbb{R} ^{N\times {T}'}\)的数量:
\(\begin{aligned}
&\Delta X_{phy,T}=MP\mbox{-}SIR(X_{T},P_{intra,T},P_{inter,T}), \\
&X_{phy,T+1}=X_{T}+\Delta X_{phy,T}, \\
&... \\
&Y^{phy}=[X_{phy,T+1}^{I},X_{phy,T+2}^{I},\ldots,X_{phy,T+T^{\prime}}^{I}].
\end{aligned}\)
3.8. 优化
我们利用流行病学领域知识进行模型构建和损失函数,以更有效地帮助 MPSTAN模型学习流行病学演变趋势。我们将神经网络和物理模型的预测值 \(Y^{st}\) 、\(Y^{phy}\)与地面真实值 \(\widehat{Y}\) 进行比较,然后通过梯度下降优化 MAE损失:
\(\begin{aligned}
\mathcal{L} (\Theta )=\frac{1}{N\times {T}' } \sum_{i=1}^{N}\sum_{\tau =1}^{{T}'}(\left |Y^{st}_{i,\tau }-\widehat{Y}_{i,\tau }\right |+ \left |Y^{phy}_{i,\tau }-\widehat{Y}_{i,\tau } \right | ).
\end{aligned}\)
4. 实验
4.1. 数据集
我们的实验是在两个真实世界的数据集上进行的:美国数据集和日本数据集。如表1所示,美国数据集是收集自约翰霍普金斯大学冠状病毒资源中心的州级数据[45],记录了2020年5月1日至2020年12月31日(245天)美国52个州的日活跃病例数、日康复病例数、日易感病例数和总人口。日本数据集是日本LIVE Dashboard[46]收集的地级市数据,记录了2022年1月15日至2022年6月14日(151天)47个县的日活跃病例数、日康复病例数、日易感病例数和总人口。
表1 数据集统计信息。
4.2. 实验的细节
基线。我们将模型与以下四种基线进行了比较:(i)传统数学模型:SIR、ARIMA;(ii)时间序列模型:GRU;(iii)传统时空模型:GraphWaveNet、STGODE、CovidGNN、ColaGNN;(iv)基于领域知识的时空模型:STAN。
- SIR [3]: SIR模型使用三个微分方程来计算单个区域中易感、感染和恢复病例数的变化。
- ARIMA[31]:自回归综合移动平均模型被广泛用于时间序列预测。我们使用ARIMA来预测每个区域的日活跃病例。
- GRU[10]:门控循环单元是RNN的一种变体,与LSTM相比,它使用更少的参数来实现门控机制。我们分别使用每个区域的GRU来预测每日活跃病例。
- GraphWaveNet [21]: GraphWaveNet结合自适应邻接矩阵、扩散卷积和门控TCN来捕获时空依赖关系。
- STGODE [42]: STGODE将Neural ODE与GCN相结合,提出了一种时空张量模型,实现了时空依赖关系的统一建模。
- covid - gnn [16]: covid - gnn以每个patch的时间序列作为节点特征,使用带跳跃连接的GCN预测流行病。
- ColaGNN [17]: ColaGNN利用注意机制设计动态邻接矩阵,采用多尺度扩张卷积层进行流行病的长短期预测。
- STAN [26]: STAN将流行病学领域知识应用于损失函数,具体通过结合SIR模型构建一个动态约束损失。
设置。我们将两个数据集按60%-20%-20%的比例分成训练集、验证集和测试集,并将所有数据归一化到(0,1)范围。为了验证模型在短期和长期预测中的有效性,我们将输入时间长度设置为5,短期预测时间长度设置为5和10,长期预测时间长度设置为15和20。在模型中,GRU和GAT的维度分别设置为64和32。另外,GAT中的正面个数K设为2。我们将epoch数设置为50,并使用学习率为1e-3的Adam优化器。
评价指标。在本研究中,我们选择平均绝对误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)、Pearson相关系数(PCC)和一致性相关系数(CCC)来评价每个模型的性能,其中MAE、RMSE和MAPE越低,PCC和CCC越高,预测性能越好。上述评价指标表示为:
\(\begin{aligned}
&MAE=\frac{1}{N\times {T}'} \sum_{i=1}^{N}\sum_{\tau=1}^{{T}'} (|Y_{i,\tau}^{st} -\widehat{Y}_{i,\tau } |), \\
&RMSE=\sqrt{\frac{1}{N \times {T}' } \sum_{i=1}^{N}\sum_{\tau=1}^{{T}'}(|Y_{i,\tau}^{st} -\widehat{Y}_{i,\tau } |)^{2} }, \\
&MAPE=\frac{100 \% }{N \times {T}'} \sum_{i=1}^{N}\sum_{\tau=1}^{{T}'}|\frac{Y_{i,\tau}^{st} -\widehat{Y}_{i,\tau }}{\widehat{Y}_{i,\tau }} | , \\
&PCC=\frac{\sum_{i=1}^{N}\sum_{\tau=1}^{{T}'}(Y_{i,\tau}^{st}-\bar{ Y}_{i,\tau}^{st} )(\widehat{Y}_{i,\tau}
-\bar{\widehat{Y}}_{i,\tau })}{\sqrt{\sum_{i=1}^{N}\sum_{\tau=1}^{{T}'} (Y_{i,\tau}^{st}-\bar{ Y}_{i,\tau}^{st} )^{2}(\widehat{Y}_{i,\tau}
-\bar{\widehat{Y}}_{i,\tau })^{2}} }, \\
&CCC=\frac{2\rho \sigma _{x}\sigma _{y}}{\sigma _{x}^{2}+\sigma _{y}^{2}+(\mu _{x}-\mu _{y})^{2}} ,
\end{aligned}\)
其中 \(\rho\) 表示两个变量之间的相关系数, \(\mu _{x}\) 和\(\mu _{y}\)表示两个变量的均值, \(\sigma _{x}^{2}\) 、 \(\sigma _{y}^{2}\)是相应的方差。
4.3. 预测性能
如表2和表3所示,我们分别用美国数据集和日本数据集上的所有基线来评估我们的方法的性能,用于预测日常活动病例,其中粗体和下划线表示最佳和次优,改进表示MPSTAN与次优预测结果相比的改进率。在美国数据集上,我们的方法在短期(T=5,10)和长期(T=15,20)预测中都达到了最先进的(SOTA)性能。特别是,我们对所有预测任务的预测结果都比次优预测有了显著的改善,其中MAE提高了至少19.05%,RMSE提高了至少7.72%,MAPE提高了至少23.97%,PCC提高了至少0.34%,CCC提高了至少0.11%。虽然我们的方法在日本数据集上可能不能完全达到SOTA的性能,但与其他模型相比,它可以获得最优或有竞争力的预测结果,显示出很强的竞争力,其中MAE提高至少16.45%,RMSE提高至少17.40%,MAPE提高至少6.38%,CCC提高至少2.66%。综上所述,与所有基线模型相比,MPSTAN可以为不同的现实世界流行病数据集提供更准确和稳定的预测。
表2 在美国数据集上与基线的性能比较。
表3 日本数据集与基线的性能比较。
接下来,我们具体讨论了不同模型之间的性能比较。传统数学模型(如SIR、ARIMA)在短期预测中往往优于神经网络模型,但在长期预测中表现较差。这可能是因为传统数学模型的预测精度高度依赖于时间长度,而长期预测需要更多的历史数据。历史数据不足会导致预测误差,而误差的累积效应随着预测时间的延长而增加,导致长期预测结果变差。
此外,我们观察到交通流模型,特别是STGODE,在为不同的任务提供稳定和准确的预测方面面临挑战。这可能是由于流行病数据比交通流数据更稀疏和更嘈杂,增加了这些模型在应用于流行病数据时过拟合的可能性。通过观察发现,ColaGNN模型在提供准确预测方面也存在困难。人们认为,ColaGNN模型最初是为流感类疾病设计的,而COVID-19数据更复杂,规模更大。因此,ColaGNN模型不太适合这些任务。
通过将基于领域知识的模型(如STAN、MPSTAN)与其他基线进行比较,我们发现STAN和MPSTAN在准确性方面优于其他模型,这表明纳入流行病学领域知识的神经网络能够更好地捕捉流行病传播的潜在动态,并实现更准确的预测。结果表明,MPSTAN的预测效果优于STAN,凸显了这种结合流行病学领域知识的综合神经网络框架在实现更准确预测方面的价值。该框架主要包括两个方面:领域知识集成和元种群传播建模。此外,在4.4节中,我们将讨论这两个方面对预测结果的影响,包括积分方法和区域间相互作用的影响。
4.4. 消融实验
为了探索流行病学领域知识对流行病预测的影响,并验证模型组件的有效性,我们进一步在美国和日本的数据集上进行了消融实验。
(1) MPSTAN w/o Phy-All:从模型构建和损失函数中去除流行病学领域知识。我们只使用时空模块进行流行病预测。
(2) MPSTAN w/o Phy-Loss:从损失函数中去除流行病学领域知识。我们只是将知识结合到模型构建中。
(3) MPSTAN w/o Phy-Model:将流行病学领域知识从模型构建中剔除。我们在输出层预测物理模型参数,并将知识组合到损失函数中。
(4) MPSTAN w/o Mobility:在不考虑人口流动性的情况下,将流行病学领域知识结合到模型中,主要采用SIR模型代替MP-SIR模型。
(5) MPSTAN w/o MPG:移除多参数发生器(MPG)。我们使用单个参数生成器生成包含时空信息的嵌入的所有物理模型参数。
消融实验结果如表4和表5所示,其中粗体表示消融模型或MPSTAN性能更好。首先,通过比较MPSTAN和无Phy-All的MPSTAN在两个数据集上的性能,分析了领域知识在流行病预测中的有效性。结果表明,缺乏领域知识的MPSTAN w/o Phy-All模型在流行病预测中的表现非常差,突出了流行病学领域知识在流行病预测中的重要作用。
表4 美国数据集的消融研究。
表5 日本数据集的消融研究。
为了进一步研究不同领域知识集成方法对流行病预测的影响,我们比较了MPSTAN w/o Phy-Loss、MPSTAN w/o PhyModel和MPSTAN。在美国数据集上,MPSTAN将领域知识应用于模型构建和损失函数,可以更准确地预测流行病趋势,如表4所示。在表5中,对于日本数据集的短期预测,MPSTAN的表现比没有Phy-Loss的MPSTAN差,后者仅将领域知识应用于模型构建,但仍然提供有竞争力的预测。在长期预测中,MPSTAN优于其他两种模型。
总体而言,将领域知识纳入模型构建和损失函数中,可以更好地帮助模型学习流行病传播的基本动态,提高预测精度。通过对MPSTAN w/o Phy-Loss和MPSTAN w/o Phy-Model在两个数据集上的比较,我们发现前者在所有预测任务中表现更好,这表明将领域知识应用于模型构建比将其应用于损失函数更有利于准确预测流行病。此外,通过MPSTAN w/o Phy-All和MPSTAN w/o Phy-Model的比较,我们发现仅使用领域知识约束损失函数可能会导致较差的预测性能。因此,我们认为将领域知识纳入模型构建是必不可少的,同时将其应用于损失函数可以提高模型的预测精度。
对于剩余的模型成分,分别使用MPSTAN w/o Mobility和MPSTAN w/o MPG验证元种群模型建立和多参数生成器的有效性。在美国数据集上,对于T=5、10和15的预测任务,MPSTAN优于MPSTAN w/o Mobility。然而,对于T=20的任务,观察到相反的结果,这可能是由于当预测时间较长时,区域间的物理参数不再足以定义种群流动性。总体而言,考虑人口流动性的元种群流行病模型MP-SIR比传统SIR更有利于模型训练。此外,MPSTAN与无MPG的MPSTAN比较表明,仅使用一个参数生成器生成所有物理模型参数可能会导致较差的预测性能。
在日本数据集上,我们观察到MPSTAN w/o Mobility和MPSTAN w/o MPG的性能大多优于MPSTAN。我们认为这是由于这两个数据集是在不同的时间和地点收集的,导致疾病控制措施和公众意识的差异。为了证实这一点,我们从每个数据集中随机选择了五个城市,并在图3中显示了这些城市的标准化日活跃案例。这清楚地表明,美国城市的活跃病例正在激增,而日本城市正在有效控制疾病的传播,导致活跃病例减少。此外,我们调查了来自谷歌的Covid-19社区流动性报告[47],针对这两个数据集的相应时间段。我们观察到,美国的公园人口流动高于疫情前基线,而日本则低于基线。造成上述情况的可能原因是,美国收集的数据来自较早时期,当时新冠肺炎防控政策尚未完善,人口流动性较大。另一方面,在日本收集的数据来自较晚的时期,当时实施了更全面的措施,公众更加意识到自我隔离的重要性,导致人口流动性降低。因此,在日本数据集上,传统SIR模型更适合与神经网络相结合进行疫情预测。多参数发生器(MPG)本质上是基于元种群流行病模型,因此,无MPG的MPSTAN预测精度更高。
图3:美国和日本数据集的典型城市样本。
此外,我们认识到,没有任何单一领域的知识可以普遍适用于所有复杂的流行病数据。因此,在选择整合到神经网络中的领域知识时,需要考虑实际情况,选择更具代表性的知识,以实现更准确的预测。
4.5. 超参数效应
在本节中,我们研究了超参数对性能的影响,重点是GRU和GAT的维度。我们每次改变一个参数,同时保持另一个参数不变。此外,维度范围设置为[8,16,32,64,128],选择T=5作为美国数据集上的任务,选择MAE, RMSE和MAPE作为评估指标。
图4分别展示了不同尺寸的GRU和GAT对性能的影响。可以看出,当维数较少时,预测性能较差,当维数增加时,预测性能逐渐变好,这是由于拟合疫情的潜在动态涉及更多的参数。当维度数继续增加时,预测效果也会变差。这个问题的可能原因可能是流行病数据是稀疏的,过多的参数会导致过拟合问题。
4.6. 模型的复杂性
通过比较各模型的神经网络参数来分析模型的复杂度。如图5所示,MPSTAN模型的神经网络参数数量明显少于其他时空模型。这是因为MPSTAN广泛使用了流行病学领域的知识(例如,模型构建、损失函数),从而减少了对神经网络的依赖,减少了参数的数量。通过对比GRU和MSPTAN,我们发现参数数量相似,但前者忽略了流行病的空间依赖性和内在传播机制,只能用于单个区域的时间预测,而后者则完美地解决了上述问题,并为不同趋势提供了稳定准确的预测。
5. 结论
在本文中,我们提出了一种基于元种群的时空注意力网络(MPSTAN)用于流行病预测。该模型采用自适应方法定义区域之间的相互作用,并将构建的领域模型应用于MPSTAN的模型构建和损失函数,以更好地了解流行病传播的潜在动力学。实验表明,MPSTAN在两个具有不同流行病学演变趋势的真实数据集上优于其他基线,并且更加稳定。此外,我们进一步分析了纳入领域知识的有效性,发现它提高了学习模型预测的准确性。具体而言,领域知识在模型构建中比损失函数发挥更重要的作用,将其应用于这两个方面可以更好地适应潜在的流行病学动态。我们还认识到,没有任何单一领域的知识可以完全适用于不同现实情况下的流行病预测。
相反,我们应该根据实际情况选择更具代表性的领域知识,以实现更准确的预测。我们还讨论了超参数对模型的影响,因为过小或过大的超参数分别会导致欠拟合或过拟合,因此必须选择合适的超参数。最后,我们分析了模型的复杂性,发现与所有基线相比,MPSTAN由于其更好地集成了领域知识,因此需要更少的神经网络参数。
我们的模型在不同流行病趋势的流行病预测方面取得了最先进或具有竞争力的结果,但仍有几个方面的性能可以改进。首先,图的构建对整个学习模型有重要的影响,因为它影响了空间信息的传播和物理模型的区域间相互作用。因此,合理的图结构是至关重要的。目前,我们使用重力模型来构建图结构,这种方法依赖于先验知识,但可能忽略了一些潜在的信息,导致不能完全捕获区域之间正确的图信息。此外,区域之间的图形信息会随时间变化,而不是固定不变。因此,在未来,我们将结合潜在的图形信息,构建一个动态的图形结构,以更好地描述流行病的交互图形。此外,在模型构建中,我们目前只是简单地将神经网络结果与来自物理模型的领域知识连接起来,而没有考虑它们各自的作用或权重,这也可能导致准确性的降低。因此,我们将认真分析神经网络和领域知识在流行病预测中的作用,并探索更有效的方法来融合两者的信息,例如引入门控机制来实现更准确的预测。
参考文献
[1] A. D. Kaye, C. N. Okeagu, A. D. Pham, R. A. Silva, J. J. Hurley, B. L. Arron, N. Sarfraz, H. N. Lee, G. E. Ghali, J. W. Gamble, et al, Economic impact of covid-19 pandemic on healthcare facilities and systems: International perspectives, Best Practice & Research Clinical Anaesthesiology 35 (2021) 293–306.
[2] A. Zeroual, F. Harrou, A. Dairi, Y. Sun, Deep learning methods for forecasting covid-19 time-series data: A comparative study, Chaos, Solitons & Fractals 140 (2020) 110121.
[3] W. O. Kermack, A. G. McKendrick, A contribution to the mathematical theory of epidemics, Proceedings of the royal society of london. Series A, Containing papers of a mathematical and physical character 115 (1927) 700–721.
[4] D. Efimov, R. Ushirobira, On an interval prediction of covid-19 development based on a seir epidemic model, Annual reviews in control 51 (2021) 477–487.
[5] Z. Liao, P. Lan, Z. Liao, Y. Zhang, S. Liu, Tw-sir: time-window based sir for covid-19 forecasts, Scientific reports 10 (2020) 22454.
[6] L. López, X. Rodo, A modified seir model to predict the covid-19 outbreak in spain and italy: simulating control scenarios and multiscale epidemics, Results in Physics 21 (2021) 103746.
[7] H. Alabdulrazzaq, M. N. Alenezi, Y. Rawajfih, B. A. Alghannam, A. A. Al-Hassan, F. S. Al-Anzi, On the accuracy of arima based prediction of covid-19 spread, Results in Physics 27 (2021) 104509.
[8] D. Parbat, M. Chakraborty, A python based support vector regression model for prediction of covid19 cases in india, Chaos, Solitons & Fractals 138 (2020) 109942.
[9] S. Hochreiter, J. Schmidhuber, Long short-term memory, Neural computation 9 (1997) 1735–1780.
[10] J. Chung, C. Gulcehre, K. Cho, Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, arXiv preprint arXiv:1412.3555 (2014).
[11] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, I. Polosukhin, Attention is all you need, Advances in neural information processing systems 30 (2017).
[12] R. T. Chen, Y. Rubanova, J. Bettencourt, D. K. Duvenaud, Neural ordinary differential equations, Advances in neural information processing systems 31 (2018).
[13] S. Hazarie, D. Soriano-Paños, A. Arenas, J. Gómez-Gardeñes, G. Ghoshal, Interplay between population density and mobility in determining the spread of epidemics in cities, Communications Physics 4 (2021) 191.
[14] T. N. Kipf, M. Welling, Semi-supervised classification with graph convolutional networks, in: International Conference on Learning Representations, 2017.
[15] P. Veličković, G. Cucurull, A. Casanova, A. Romero, P. Liò, Y. Bengio, Graph attention networks, in: International Conference on Learning Representations, 2018.
[16] A. Kapoor, X. Ben, L. Liu, B. Perozzi, M. Barnes, M. Blais, S. O’Banion, Examining covid-19 forecasting using spatio-temporal graph neural networks, arXiv preprint arXiv:2007.03113 (2020).
[17] S. Deng, S. Wang, H. Rangwala, L. Wang, Y. Ning, Cola-gnn: Cross-location attention based graph neural networks for long-term ili prediction, in: Proceedings of the 29th ACM International Conference on Information & Knowledge Management, 2020, pp. 245–254.
[18] H. Zhang, Y. Xu, L. Liu, X. Lu, X. Lin, Z. Yan, L. Cui, C. Miao, Multimodal information fusion-powered regional covid-19 epidemic forecasting, in: 2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2021, pp. 779–784.
[19] B. Yu, H. Yin, Z. Zhu, Spatio-temporal graph convolutional networks: a deep learning framework for traffic forecasting, in: Proceedings of the 27th International Joint Conference on Artificial Intelligence, 2018, pp. 3634–3640.
[20] Y. Li, R. Yu, C. Shahabi, Y. Liu, Diffusion convolutional recurrent neural network: Data-driven traffic forecasting, in: International Conference on Learning Representations, 2018.
[21] Z. Wu, S. Pan, G. Long, J. Jiang, C. Zhang, Graph wavenet for deep spatial-temporal graph modeling, in: Proceedings of the 28th International Joint Conference on Artificial Intelligence, 2019, pp. 1907–1913.
[22] A. Adiga, B. Lewis, S. Levin, M. V. Marathe, H. V. Poor, S. Ravi, D. J. Rosenkrantz, R. E. Stearns, S. Venkatramanan, A. Vullikanti,et al, Ai techniques for forecasting epidemic dynamics: Theory and practice, in: Artificial Intelligence in Covid-19, Springer, 2022, pp. 193–228.
[23] F. Kamalov, K. Rajab, A. Cherukuri, A. Elnagar, M. Safaraliev, Deep learning for covid-19 forecasting: state-of-the-art review., Neurocomputing (2022).
[24] A. Karpatne, G. Atluri, J. H. Faghmous, M. Steinbach, A. Banerjee, A. Ganguly, S. Shekhar, N. Samatova, V. Kumar, Theory-guided data science: A new paradigm for scientific discovery from data, IEEE Transactions on knowledge and data engineering 29 (2017) 2318– 2331.
[25] V. La Gatta, V. Moscato, M. Postiglione, G. Sperli, An epidemiological neural network exploiting dynamic graph structured data applied to the covid-19 outbreak, IEEE Transactions on Big Data 7 (2020) 45–55.
[26] J. Gao, R. Sharma, C. Qian, L. M. Glass, J. Spaeder, J. Romberg, J. Sun, C. Xiao, Stan: spatio-temporal attention network for pandemic prediction using real-world evidence, Journal of the American Medical Informatics Association 28 (2021) 733–743.
[27] L. Wang, A. Adiga, J. Chen, A. Sadilek, S. Venkatramanan, M. Marathe, Causalgnn: Causal-based graph neural networks for spatio-temporal epidemic forecasting, in: Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, 2022, pp. 12191– 12199.
[28] Q. Cao, R. Jiang, C. Yang, Z. Fan, X. Song, R. Shibasaki, Mepognn: Metapopulation epidemic forecasting with graph neural networks, in: Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 2022.
[29] S. Moein, N. Nickaeen, A. Roointan, N. Borhani, Z. Heidary, S. H. Javanmard, J. Ghaisari, Y. Gheisari, Inefficiency of sir models in forecasting covid-19 epidemic: a case study of isfahan, Scientific reports 11 (2021) 1–9.
[30] I. Cooper, A. Mondal, C. G. Antonopoulos, A sir model assumption for the spread of covid-19 in different communities, Chaos, Solitons & Fractals 139 (2020) 110057.
[31] D. Benvenuto, M. Giovanetti, L. Vassallo, S. Angeletti, M. Ciccozzi, Application of the arima model on the covid-2019 epidemic dataset, Data in brief 29 (2020) 105340.
[32] P. Arora, H. Kumar, B. K. Panigrahi, Prediction and analysis of covid19 positive cases using deep learning models: A descriptive case study of india, Chaos, Solitons & Fractals 139 (2020) 110017.
[33] F. Shahid, A. Zameer, M. Muneeb, Predictions for covid-19 with deep learning models of lstm, gru and bi-lstm, Chaos, Solitons & Fractals 140 (2020) 110212.
[34] L. Wang, J. Chen, M. Marathe, Defsi: Deep learning based epidemic forecasting with synthetic information, in: Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, 2019, pp. 9607– 9612.
[35] L. Li, Y. Jiang, B. Huang, Long-term prediction for temporal propagation of seasonal influenza using transformer-based model, Journal of biomedical informatics 122 (2021) 103894.
[36] S. Jung, J. Moon, S. Park, E. Hwang, Self-attention-based deep learning network for regional influenza forecasting, IEEE Journal of Biomedical and Health Informatics 26 (2021) 922–933.
[37] Z. Wu, S. Pan, F. Chen, G. Long, C. Zhang, S. Y. Philip, A comprehensive survey on graph neural networks, IEEE transactions on neural networks and learning systems 32 (2020) 4–24.
[38] K.-H. N. Bui, J. Cho, H. Yi, Spatial-temporal graph neural network for traffic forecasting: An overview and open research issues, Applied Intelligence 52 (2022) 2763–2774.
[39] G. Panagopoulos, G. Nikolentzos, M. Vazirgiannis, Transfer graph neural networks for pandemic forecasting, in: Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, 2021, pp. 4838–4845.
[40] A. Tomy, M. Razzanelli, F. Di Lauro, D. Rus, C. Della Santina, Estimating the state of epidemics spreading with graph neural networks, Nonlinear Dynamics 109 (2022) 249–263.
[41] P. Chen, X. Fu, X. Wang, A graph convolutional stacked bidirectional unidirectional-lstm neural network for metro ridership prediction, IEEE Transactions on Intelligent Transportation Systems 23 (2021) 6950–6962.
[42] Z. Fang, Q. Long, G. Song, K. Xie, Spatial-temporal graph ode networks for traffic flow forecasting, in: Proceedings of the 27th ACM SIGKDD conference on knowledge discovery & data mining, 2021, pp. 364–373.
[43] H. Wang, G. Tao, J. Ma, S. Jia, L. Chi, H. Yang, Z. Zhao, J. Tao, Predicting the epidemics trend of covid-19 using epidemiologicalbased generative adversarial networks, IEEE Journal of Selected Topics in Signal Processing 16 (2022) 276–288.
[44] J. Truscott, N. M. Ferguson, Evaluating the adequacy of gravity models as a description of human mobility for epidemic modelling., PLoS Computational Biology 8 (2012).
[45] E. Dong, H. Du, L. Gardner, An interactive web-based dashboard to track covid-19 in real time, The Lancet infectious diseases 20 (2020) 533–534.
[46] W. Su, W. Fu, K. Kato, Z. S.-Y. Wong, “japan live dashboard” for covid-19: A scalable solution to monitor real-time and regional-level epidemic case data, in: Context Sensitive Health Informatics: The Role of Informatics in Global Pandemics, 2021, pp. 21–25.
[47] A. Aktay, S. Bavadekar, G. Cossoul, J. Davis, D. Desfontaines, A. Fabrikant, E. Gabrilovich, K. Gadepalli, B. Gipson, M. Guevara, et al, Google covid-19 community mobility reports: anonymization process description (version 1.1), arXiv preprint arXiv:2004.04145 (2020).