论文精读：面向物流网络中包裹的多峰行程时间分布预测的基于图的混合密度网络

论文精读《GMDNet:A Graph-Based Mixture Density Network for Estimating Packages’ Multimodal Travel Time Distribution》

一种面向物流网络中包裹的多峰行程时间分布预测的基于图的混合密度网络

摘要

研究内容：物流网络中根据路线准确估算包裹的行程时间分布（TTD）问题。
意义：准确预测包裹的到达时间分布对消费者和物流平台都具有重要意义。
之前的研究：路网中的行程时间和行程时间分布预测上取得较好成果，但不能很好地应用于物流网络中的TTD预测。
研究的特殊性：物流网络中的行程时间分布预测需要在捕获物流网络中复杂时空相关性的同时建模包裹的多峰行程时间分布MTTD。
研究方法：一种基于图的混合密度网络GMDNet，训练过程中为保证局部收敛采用期望最大化。

介绍

研究背景：在物流平台中，最关键的任务之一是估算包裹从起始节点到目的地节点的路径的行程时间分布（TTD）。准确估算行程时间分布对消费者和平台都具有重要价值。
①消费者：帮助他们安排取货时间，减轻等待焦虑。
②物流平台：帮助物流网络中的目的地节点提前制定更好的调度计划。
面临挑战：
挑战一：物流网络中复杂的空间关联和影响因素。
首先，如图1左侧所示，物流网络中的节点通过包裹流自然地与其他节点相连和相关。上游节点的包裹突然增加，会扩散到下游节点，导致向下游节点流动过程中的停留时间和转移时间发生变化。因此，物流网络中的节点在空间上是相关的。其次，包裹在节点中的停留时间受到多种复杂因素的影响，例如节点中当前的包裹数量，节点中的包裹数量越多，包裹离开节点所需的时间就越长。之前的研究基于链路对的行程时间来估计交通道路网络的 TTD，但这种方法不能很好地应用于处理图结构数据和物流网络中的复杂相关性。

图1：给定物流网络路线的包裹 MTTD。17:00 发送的包裹从物流网络中的节点 A 到节点 D 的行程时间分布（左侧部分）是多峰的（右侧部分）。由于路线（中间部分）传输过程的不确定性，包裹 1（橙色）比包裹 2（绿色）更早到达。

挑战二：包裹的行程时间分布是多峰的，意味着一条给定的路线可能有不止一个输出。图中，包裹1和包裹2的路线相同，都是17:00从A出发前往D。然而，包裹1比包裹2 更早到达目的地D。由于转运过程中的不确定性，很难确定每个包裹将被分配到哪辆卡车上（即使它们在同一条路线上）。有些包裹（本例中为包裹 1）可能会幸运地被一辆几乎满载的卡车提前运往下一个节点，而其他同时到达的包裹（本例中为包裹 2）则不得不等待下一辆卡车。这样就产生了物流网络中包裹典型的多峰行程时间分布。虽然很多针对公路网络中行程时间估算（TTE）的研究都考虑到了图结构数据，但他们将TTE视为预测平均值的回归问题，因此未能描述包裹旅行时间的MTTD。
研究的贡献点：
①扩展基于图的TTE方法的功能。
②提出一种基于图的混合密度网络GMDNet，用于准确预测包裹的 MTTD。
③在两个真实物流数据集上进行实验验证GMDNet的性能明显优于其他解决方案。

准备工作

定义1 物流网络

物流网络本质上是一个有向图，定义为 $G = {ν, ε, X, A, E}$ ，每个节点对应一个物流实体（如商店、转运中心）。 $ε = {e_{i j} | ν_{i}, ν_{j} \in ν}$ 是边的集合。 $X \in R^{N \times d_{ν}}$ 和 $E \in R^{N \times N \times d_{e}}$ 分别是节点和边的特征，其中 $d_{ν}$ ，和 $d_{e}$ 分别为节点特征维度和边缘特征维度。 $A \in R^{N \times N}$ 是相邻矩阵。

定义2 路径

物流网络中的一条路径用元组 $R = (r, f)$ 表示， $r = [e_{1}, . . ., e_{l}]$ 是路径中的边序列，其中 $e_{1}, . . ., e_{l} \in ε$ ， $f \in R^{d_{f}}$ 是r中与路径相关的特征， $d_{f}$ 是特征的维度。

问题陈述

给定物流网络 $G_{t}$ 和包裹在请求时间t的路线，我们的目标是预测包裹的行程时间分布 $P (y_{s} | s)$ ，其中 $s = {G_{t}, R_{t}}$ ， $y_{s}$ 是给定s的实际行程时间（即标签）。

GMDNet模型

1 总体思路：MLE假设

为使模型具备多峰输出功能，利用混合密度网络MDN的来学习条件分布。具体来说，通过求解最大似然估计（MLE）来估计混合分量、权重，将K个混合分量与混合权重相结合，以产生混合高斯分布。给定一个假设空间H，我们寻求可以最大化似然的最优MLE估计：

最大似然估计MLE：从已知的数据中找到最有可能生成这些数据的参数值
argmax：取使后面的函数取得最大值的那个参数值
L(h|D)：似然函数，“h”是参数，“D”是观测数据。最大似然估计的思想：对于给定的观测数据D，我们希望从所有的参数 $h_{1}, . . ., h_{n}$ 中找出最大概率生成观测数据的参数 $h^{*}$ 作为估计结果。
潜变量在概率模型中不直接观察到的变量，对于描述数据的分布或生成过程很有用。
边缘化：去除一个或多个变量的影响从而得到另一个变量的分布。
举例：有一个模型描述了一个班级学生成绩的分布，但是我们知道学生的智力水平是一个很重要的因素，而且它是无法直接观察到的（是一个潜在变量）。我们可以引入一个潜在变量 “I”代表学生的智力水平，然后我们的模型就可以写成“P(成绩|智力水平)P(智力水平)”，其中 “P(成绩|智力水平)”表示在给定智力水平的情况下成绩的分布，“P(智力水平)”表示智力水平的分布。如果我们只关心成绩的分布而不关心智力水平，我们可以使用边缘化操作，去除潜在变量“I”的影响，得到 “P(成绩)”。这个过程就是边缘化掉智力水平的过程。
潜变量可能为：交通流量和拥堵情况、天气和环境因素、道路质量和施工情况、运输工具状态、订单和货物属性、路线选择。

潜变量 $π_{s}$ 是通过边缘化引入的，其第k个分量是 $π_{s}^{k}$ 。为了对方程中的分布 $P (y_{s} | s)$ 进行建模，我们首先实现一个图协作的路由编码层，以获得以s作为输入的路由嵌入。然后，混合密度解码层基于路径嵌入生成混合权重 $P (π_{s}^{k} | s)$ 和混合分量 $p (y_{s} | π_{s}^{k}, s)$ 。最后，通过组合混合权重和分量来产生 $P (y_{s} | s)$ 。图2为整体架构。

图2：GMDNet的结构

2 输入层Input Layer

在请求时间为t，输入包括物流网络 $G_{t}$ 和路线 $R_{t}$ 。

网络特征Network Features
令 $a_{i j}$ 为相邻矩阵 $A \in R^{N \times N}$ 的第(i,j)项。如果包裹可以从节点i传输到节点j(i≠j)，则 $a_{i j} = 1$ ，如果i=j，则 $a_{i j} = - 1$ 。否则 $a_{i j} = 0$ 。
给定节点 $ν_{i} \in ν$ ，节点特征向量 $X_{i}$ 的公式为： $X_{i} = (x_{i}^{i n}, x_{i}^{o u t}, w e e k d a y, h o u r)$ 。 $x_{i}^{i n}$ 是所有上游节点传入的包裹数量， $x_{i}^{o u t}$ 是发送到所有下游节点的包裹数量。weekday和hour分别是星期几和一天中的几时。
给定时间t的一条边 $(i, j) \in ε$ ，则边特征向量为 $e_{i j} = (e_{i j}^{i n}, e_{i j}^{o u t}, e_{i j}^{s t a y}, e_{i j}^{t r a n s}, a_{i j}, w e e k d a y, h o u r)$ 。 $e_{i j} = (e_{i j}^{i n}, e_{i j}^{o u t}$ 分别是从节点i向节点j送入/送出的包裹数量。 $e_{i j}^{s t a y}$ 是从节点i到节点j的包裹在节点i的平均停留时间。 $e_{i j}^{t r a n s}$ 是从节点i到节点j的平均传输时间。 $a_{i j}$ 是节点i和j之间的邻近度。
路线特征Route Features
路线 $R_{t}$ 中的边序列记为r。路线 $R_{t}$ 的相关特征f： $f = (f^{o u t}, f^{t r a n s}, w e e k d a y, h o u r)$ 。 $f^{o u t}$ 是从起始节点发送到目的节点的包裹数量。 $f^{t r a n s}$ 是从起始节点到目的节点的平均行程时间。
上述特征中， $x_{i}^{i n}, x_{i}^{o u t}, e_{i j}^{i n}, e_{i j}^{o u t}, e_{i j}^{s t a y}, e_{i j}^{t r a n s} f^{o u t}, f^{t r a n s}$ 是在t之前的给定时间窗口（本文为一天）内计算的。

3 图协同路径编码层Graph-Cooperated Route Encoding Layer

对物流网络中的空间依赖性进行建模（得到点的嵌入和边的嵌入），并整合了路径中边之间的相互关系，以生成路径的综合表示（得到路径嵌入）。

空间依赖性建模Spatial Dependency Modeling
给定节点和边特征通过线性变换获得的 $d_{h}$ 维节点和边嵌入作为输入，通过L层的图神经网络对物流网络中节点和边之间的空间依赖关系进行建模，每层更新节点和边缘嵌入，通过对它们的交互进行建模。
让 $u_{i}$ 表示与节点i相关的嵌入， $h_{i j}^{l}$ 表示与第 $l$ 层的 $（ i, j ）$ 相关的嵌入。在物流网络中，包裹流是有方向性的，并且与节点和边都相关联，因此我们通过以下过程联合更新第层的节点嵌入和边嵌入：

$N_{i}$ 表示以节点i为中心的相邻节点集合，Aggregate(~)是聚合函数，更新函数f、g 可以通过非线性变换进一步指定：

其中， $W_{i}^{l}$ 为可训练参数， $σ_{1}$ 为ReLU激活函数， $σ_{2}$ 为sigmoid函数。BN(-) 表示批次归一化。经过L层图神经网络的计算，我们得到空间相关性编码的输出： $U_{s}, H_{s}$ 它们分别是节点和边的嵌入。
互相关建模Mutual Correlation Modeling
整合路线中各边之间的相互关联，生成路线的综合嵌入。
初始路线嵌入（用 $R_{s}$ 表示）由该路线中边嵌入（来自 $H_{s}$ ）堆叠得到。其次，我们采用多头自注意力机制来整合路线中各边的相互信息，得到更新的路嵌入，注意力函数表述入下：

其中， $Q 、 K 、 V$ （查询、键和值）由路由嵌入 $R_{s}$ 构建，d是K的维度。采用多头自注意力机制，共同关注来自不同表示子空间的信息。形式上：

其中，h是注意力头的数量。 $W_{j}^{Q}, W_{j}^{K}, W_{j}^{V}$ 是应用于 $Q 、 K 、 V$ 的投影矩阵； $W^{o}$ 是最终输出投影矩阵。
在路径编码层，为初始路径嵌入 $R_{s}$ 配备了固定位置嵌入，以便将顺序偏差纳入模型。将边的嵌入与位置嵌入连接起来，这有助于模型识别路径中边之间的相对顺序。
最后，根据请求时间t的输入 $s = (G_{t}, R_{t})$ ，将更新后的路由嵌入 $r_{s}^{^{'}}$ 重塑为R_s，并与路径相关特征 $f$ 相连，得到最终的路径嵌入 $r_{s}^{^{″}}$ 。

4 混合密度解码层Mixture Density Decoding Layer

根据路径嵌入 $r_{s}^{^{″}}$ 对混合权重 $π_{s}$ 和混合分量 $P (y_{s} | π_{s}^{k}, s)$ 进行建模。更正式地说， $P (y_{s} | s)$ 的建模过程可以用贝叶斯网络来表示，如图3所示。

图3： $P (y_{s} | s)$ 的建模过程可以表示为一个贝叶斯网络.

将混合权重 $π_{s}$ 建模为具有K种可能状态的分类分布。 $π_{s}$ 满足和为1。后验分布可以通过确定性路径嵌入计算得出：

假设混合分量的条件分布来自于高斯分布族。混合分量的条件密度函数可以表述为：

采用网络 $ϕ_{k_{ν}}, ϕ_{k_{ν}}$ 来根据路径嵌入输出条件密度函数的参数：

5 通过EM框架进行模型训练Model Training via EM Framework

训练
最大似然估计中似然函数的对数取法如下

由于对数似然函数中存在潜变量，采用期望最大化框架来解决MLE估计问题，相比梯度下降更新参数，EM框架可以保证局部收敛。
引入指示变量 $z_{s}^{k}$ 通过Jensen不等式来编写对数似然的下界：

进一步推导得：

基于对数似然的下界，通过计算指示变量的后验概率执行EM的E-step：

通过边缘化推导得出：

最终的目标函数：
预测

实验

1 数据集

来自菜鸟网络的两个不同地区的真实物流数据集。这两个数据集均包含2022年2月6日至2022年3月8日的物流网络中包裹的行程信息。

2 基准

历史平均（HA）
LightGBMI：传统机器学习算法
Wide-Deep-Recurrent（WDR）：深度神经网络
混合密度网络（MDN）
核密度估计（KDE）
GCGTTE：深度学习+GAN
GMDNet-GD：通过梯度下降训练的GMDNet

3 评估指标

平均绝对误差MAE和平均绝对百分比误差MAPE：衡量预测与标签之间的偏差程度。
对数似然 $l o g^{L}$ 和连续排名概率分数CPRS：衡量预测与观察结果的匹配程度。
较大的 $l o g^{L}$ 和较小的MAE、MAPE、CPRS意味更好的性能。

4 实验结果

由图可知，GMDNet在两个数据集上表现均优于其他方法。

成分分析

设计GMDNet三个变体并在D1数据集进行比较。

wo-GR：将GMDNet中的图协同路径编码层替换为多层感知器。评估指标上性能下降表明有效处理物流网络中的复杂空间依赖性和相互关联性的必要性。
wo-R：去除相互关联建模模块，性能下降表明通过在路径中整合边之间的相互信息来生成路由嵌入有助于提高性能。
wo-M：将GMDNet的混合组件数量设置为1，。MAE和MAPE之间的差异不太显著但更低的-logL和CRPS表明，对行程时间分布进行多峰建模更近似真实分布情况。