论文解读（Survey）《Principal Neighbourhood Aggregation for Graph Nets》

论文信息

论文标题：A Survey on Graph Structure Learning: Progress and Opportunities
论文作者：Yanqiao Zhu, Weizhi Xu, Jinghao Zhang, Yuanqi Du, Jieyu Zhang, Qiang Liu, Carl Yang, Shu Wu
论文来源：2022,arXiv
论文地址：download
论文代码：download

1 Introduction

　　图结构学习的出发点：GNN 的成功可以归因于它们能够同时利用图结构和属性中固有的丰富信息，但所提供的图不可避免地不完整和噪声较大，这给将 GNN 应用于现实问题带来了巨大的挑战。从表示学习的角度来看，GNN 通过递归聚合来自相邻节点的信息来计算节点嵌入，这种迭代机制具有级联效应——小的噪声将传播到社区，恶化许多其他表示的质量。

　　上述问题激发了围绕图结构学习(GSL)的中心主题的大量研究，该主题的目标是联合学习一个优化的图结构及其相应的表示。

2 Preliminaries

2.1 Problem Formulation

　　Given a (partially available) graph $\mathcal{G}$ at the begining, the goal of GSL is to simultaneously learn an adjacency matrix $A^{\star}$ and its corresponding graph representations $\boldsymbol{Z}^{\star} \in \mathbb{R}^{N \times F^{\prime}}$ that are optimized for certain downstream tasks.

　　与图结构相关的概念：

- graph generation：target at generating novel, diversified graphs；

- graph learning：Aim to recover the Laplacian matrix of a homophilous graph corresponding to given node features；

　　GSL model 包括两个可学习的部分：

- a GNN encoder $f_{\Theta}$：接收一个图作为输入，并为下游任务生成嵌入；
- a structure learner $g_{\boldsymbol{\Phi}}$：对图的边连通性进行建模；

　　对模型参数 $\{\Theta, \Phi\}$ 进行训练，学习目标如下：

　　　　$\mathcal{L}=\mathcal{L}_{\mathrm{tsk}}\left(\boldsymbol{Z}^{\star}, \boldsymbol{Y}\right)+\lambda \mathcal{L}_{\mathrm{reg}}\left(\boldsymbol{A}^{\star}, \boldsymbol{Z}^{\star}, \mathcal{G}\right)\quad\quad\quad(1)$

　　其中第一项是相对于特定目标的真实标签 $\boldsymbol{Y}$ 的任务，第二项对学习图及其表示施加先验约束，$\lambda$ 是一个超参数。

2.2 Graph Structure Learning Pipeline

　　如 Figure 2 所示，大多数现有的GSL模型都遵循一个三阶段的管道：(1) graph construction，(2) graph structure modeling，和 (3) message propagation 。

Graph construction

　　最初，当给定的图结构不完整甚至根本不可用时，我们构造一个初步的图作为起点。有多种方法来构建这样的初始图，其中两个最常见的选项是

- (1) $k$ Nearest Neighbors (kNN graphs) 　　
- (2) $\epsilon$ proximity thresholding ( $\epsilon$-graphs)

　　这两种方法都首先使用核函数来计算节点特征的成对距离。

　　对于kNN图，如果 $v_{i}$ 是 $v_{j}$ 的 $k$ 近邻居之一，则我们连接两个节点 $v_{i}$、$v_{j}$。对于后一个 $\epsilon$-graphs,，如果两个节点的相似性小于预设的阈值$\epsilon$，我们将在两个节点之间创建一条边。

Graph structure modeling

　　GSL的核心是结构学习器 $g$，它对边连通性进行建模，以细化初步图。在这项工作中，我们将现有的研究分为以下三组：

- Metric-based approaches employ a metric function on pairwise node embeddings to derive edge weights.
- Neural approaches leverage more expressive neural networks to infer edge weights given node representations.
- Direct approaches treat the adjacency matrix as free learnable parameters and directly optimize them along with GNN parameters $\Theta$.

　　与直接方法不同，基于 direct approaches 的和 neural approaches 通过参数化网络学习边缘连接，该网络接收节点表示并生成一个表示优化图结构的矩阵 $\tilde{\boldsymbol{A}}$。在获得由结构学习者表示的原始图结构后，可能需要进行额外的后处理步骤，如离散抽样，来产生最终的图 $A^{\star}$。

Message propagation

　　在得到一个优化的邻接矩阵 $\boldsymbol{A}^{\star}$ 后，我们使用一个GNN编码器 $f$ 来将节点特征传播到细化的邻域，从而得到嵌入 $Z^{\star}$。

　　值得注意的是，由于优化图结构的困难，通常会重复最后两个步骤，直到满足指定的标准。换句话说，在第二步中，将利用消息传播产生的表示来建模边缘权值，迭代地细化图的拓扑和表示。

3 Graph Regularization

　　在实践中，我们经常希望学习到的图满足某些性质。在使用图结构建模技术之前，我们将在本节中回顾三种通用的图正则化技术：稀疏性（sparsity）、平滑性（smoothness）和社区保存（community preservation）。

3.1 Sparsity

　　由于观察到真实世界的图有有噪声的、与任务无关的边，我们通常对邻接矩阵施加稀疏性约束。一个常见的想法是惩罚 $\ell_{0} \text {-norm }$，它对应于非零元素的数量：

　　　　$\mathcal{L}_{\mathrm{sp}}(\boldsymbol{A})=\|\boldsymbol{A}\|_{0}\quad\quad\quad(2)$

　　然而，最小化等式（2）通常是 NP-hard 的。因此，我们通常采用 $\ell_{1}-\text {norm }$，即它的凸松弛，它可以用 coordinate descent 或 proximal gradient descent 来求解。另一种包含稀疏性约束的方法是通过其连续松弛。

　　除了直接泛化非零项外，一些方法还采用了隐式稀疏化，例如，对邻接矩阵进行硬阈值化，类似于构造 $\epsilon$-graph。

3.2 Smoothness

　　图信号处理的一个广泛使用的假设是，信号在相邻节点之间平滑变化。为了增强图信号的平滑性，我们最小化以下一项：

　　　　$\mathcal{L}_{\mathrm{sm}}(\boldsymbol{X}, \boldsymbol{A})=\frac{1}{2} \sum\limits _{i, j=1}^{N} \boldsymbol{A}_{i j}\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right)^{2}=\operatorname{tr}\left(\boldsymbol{X}^{\top} \boldsymbol{L} \boldsymbol{X}\right) \quad\quad\quad(3)$

　　理论上，最小化 $Eq.3$ 惩罚连接 $X$ 的远边，表明光滑信号对应的图具有稀疏边集。因此，我们可以施加一个辅助的连接约束

　　　　$\mathcal{L}_{\mathrm{con}}(\boldsymbol{A})=-\mathbf{1}^{\top} \log (\boldsymbol{A 1})\quad\quad\quad(4)$

　　其中对数势垒强制度为正，但不使单个边稀疏。虽然最小化 $Eq.4$ 导致稀疏图，改变其系数并不控制稀疏度，而只对解进行扩展。为了直接控制稀疏性，建议将稀疏性正则化器与 $\mathcal{L}_{\text {con }}$ 一起使用。

3.3 Community Preservation

　　直观地说，对于现实生活中的图，不同拓扑簇中的节点往往有不同的标签。因此，跨越多个社区的边缘可以被视为噪声。从图谱理论中我们知道，一个邻接矩阵的秩与该图中连通分量的数量有关，而低秩图有一个密集连通的分量。因此，为了去除潜在的噪声边和最好地保持社区结构，我们引入了一种低秩的正则化方法：

　　　　$\mathcal{L}_{\mathrm{cp}}(\boldsymbol{A})=\operatorname{rank}(\boldsymbol{A})\quad\quad\quad(5)$

　　由于秩算子的离散性，矩阵秩最小化是困难的。人们经常寻求优化核规范来取代 $Eq.5$，被定义为其奇异值的和。这种启发式已被观察到在实践中产生低秩解，并可以有效地优化。

4 Graph Structure Modeling

　　在本节中，我们将研究具有代表性的GSL模型，并讨论它们常见的结构建模技术。首先，我们简要地讨论了三类图结构建模，得到了针对特定末端任务优化的中间图。在此之后，我们将介绍已学习到的图结构的后处理技术。对于每个类别，我们在 Table 1 中总结了具有代表性的模型。

4.1 Model Taxonomy

4.1.1 Metric-based Approaches

　　基于度量的方法使用核函数来计算节点特征/嵌入对之间的相似性作为边缘权值。根据网络同质性假设，边缘倾向于连接相似的节点，这些方法通过促进类内连接来细化图结构，从而得到更紧凑的表示。由于核函数的可微性，大多数基于度量的方法都具有端到端训练的能力。

Gaussian kernels

　　AGCN 提出了一种基于距离度量学习的结构学习模型。具体来说，AGCN计算每对节点特征之间的广义马氏距离。然后，利用给定距离的大小为 $κ$ 的高斯核来细化拓扑结构：

　　　　$\phi\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\sqrt{\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right)^{\top} \boldsymbol{M}\left(\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right)} \quad\quad\quad(6)$

　　　　$\tilde{\boldsymbol{A}}_{i j}=\exp \left(-\frac{\phi\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)}{2 \kappa^{2}}\right) \quad\quad\quad(7)$

　　其中，$\boldsymbol{M}= \boldsymbol{W} \boldsymbol{W}^{\top}$ 和 $\boldsymbol{W} \in \mathbb{R}^{F \times F}$ 是一个可训练矩阵。

Inner-product kernels

　　GRCN 、GAUG-M 和 CAGNN 提出通过取两个端节点嵌入的内积来建模边权值：

　　　　$\widetilde{\boldsymbol{A}}=\sigma\left(\boldsymbol{Z} \boldsymbol{Z}^{\top}\right)\quad\quad\quad(8)$

　　其中，$\sigma(x)=1 /\left(1+e^{-x}\right)$。

Cosine similarity kernels

　　GNN-Guard 和 IDGL 使用余弦相似度来测量边权值：

　　　　$\tilde{\boldsymbol{A}}_{i j}=\cos \left(\boldsymbol{z}_{i} \odot \boldsymbol{w}, \boldsymbol{z}_{j} \odot \boldsymbol{w}\right)\quad\quad\quad(9)$

　　其中，$\boldsymbol{w} \in \mathbb{R}^{F^{\prime}}$ 是可训练参数。

Diffusion kernels

　　GDC 使用扩散核来量化边连接：

　　　　$\widetilde{\boldsymbol{A}}=\sum_{k=0}^{\infty} \theta_{k} \boldsymbol{T}^{k}\quad\quad\quad(10)$

　　其中，$\theta_{k}$ 为所满足要求的加权系数 $\sum_{k=0}^{\infty} \theta_{k}=1$，$\boldsymbol{T}$ 是广义的转移矩阵，$\boldsymbol{T}$ 常采用的是 PageRank kernel 和 heat kernel。在 GDC 之后，AdaCAD 在设计过渡矩阵时同时考虑了节点特征和图结构；GADC 研究了每个节点的最优扩散步骤。

Fusion of multiple kernels

　　为了增强表达性，AM-GCN 利用 cosine kernel 和 heat kernels 来学习拓扑空间中的信息嵌入。类似地，Yuan等人 [2022] 在节点表示上使用 cosine kernel 和一个额外的 heat kernels 来对图结构的局部和全局方面进行编码。

4.1.2 Neural Approaches

　　与基于度量的方法相比，神经方法利用更复杂的深度神经网络来建模给定节点特征和表示的边权值。具有代表性的工作 GLN 利用一个简单的单层神经网络迭代学习基于局部和全局节点嵌入的图结构。类似地，GLCN 实现了一个单层神经网络，对给定的两个节点嵌入的成对关系进行编码。神经稀疏化和 PTDNet 利用多层感知器生成一个中间图邻接矩阵，然后进行离散采样。

　　除了简单的神经网络，许多人利用注意机制来建模边连接，因为它能够捕捉节点之间复杂的交互。GAT 率先提出了在一跳社区中使用 masked self-attention 的方法：

　　　　${\large \alpha_{i j}=\frac{\exp \left(\operatorname{LeakyReLU}\left(\boldsymbol{a}^{\top}\left[\boldsymbol{W} \boldsymbol{x}_{i} \| \boldsymbol{W} \boldsymbol{x}_{j}\right]\right)\right)}{\sum_{k \in \mathcal{N}_{i}} \exp \left(\operatorname{LeakyReLU}\left(\boldsymbol{a}^{\top}\left[\boldsymbol{W} \boldsymbol{x}_{i} \| \boldsymbol{W} \boldsymbol{x}_{k}\right]\right)\right)}} \quad\quad\quad(11)$

　　其中，$\boldsymbol{W} \in \mathbb{R}^{F^{\prime} \times F}$ 和 $\boldsymbol{a} \in \mathbb{R}^{2 F^{\prime}} $ 是可学习参数。注意分数 $\alpha_{i j}$ 指定了对不同相邻节点的系数。在消息传播中，每个节点计算其邻域特征的加权组合：

　　　　$\boldsymbol{z}_{i}=\operatorname{ReLU}\left(\sum_{j \in \mathcal{N}_{i}} \alpha_{i j} \boldsymbol{W} \boldsymbol{x}_{j}\right)\quad\quad\quad(12)$

　　与在静态图结构上操作的普通 GNN 相比，归一化注意分数 $\alpha_{i j}$ 动态地放大或减弱现有的连接，形成一个表示学习到的图结构的邻接矩阵。

　　GAT的一种改进方法设计了不同的注意机制。下面我们将讨论一些广泛使用的工作；我们基于度量的神经直接推荐感兴趣的读者到 Lee等人[2019] 进行全面的调查。GaAN [Zhangetal.，2018] 利用了一种门控注意机制，动态调整每个注意头部的贡献。Gao 和 Ji[2019] 建议使用 hard and channel-wise attention 来提高计算效率。PGN [2018]和 VIB-GSL [2022] 提出使用点积自注意力机制来推断动态连接。Magna [ 2021] 提出了包含多跳上下文信息的注意力扩散。Brody [2022] 提出了一种GAT变体来增加注意功能的表达性。

　　另一个发展方向是将 Transformer-like 的 [Vaswani 2017] 全关注架构推广到图域。与以往只考虑局部邻域的模型不同，Transformer 在所有节点之间进行消息传播，并将给定的图结构编码为软归纳偏差，这提供了更多的灵活性，并能够发现新的关系。

　　由于消息的传播不管图的连通性如何，如何恢复图的位置和结构信息（例如，局部连通性）成为基于 Transformer 的模型的中心问题。最早的工作提出了事先将拉普拉斯式的位置嵌入连接到节点特征上 [Dwivedi和Bresson，2020]，类似于序列的位置编码。后续工作 Graphomer [Yingetal.等人，2021]考虑了额外的结构信息，如中心性和最短路径距离。GraphiT [Mialonetal.，2021] 提出了相对位置编码，通过正确定核重加权注意分数，并利用局部子图结构丰富节点特征。Kreuzer [2021] 提出了可学习的位置编码，它使用另一个变换编码器变换图的拉普拉斯谱。最近，Dwivedi [2022] 提出了解耦结构嵌入和位置嵌入，并使它们能够与其他参数一起进行更新。

4.1.3 Direct Approaches

　　与上述方法不同，direct approache 将目标图的邻接矩阵视为自由变量来学习。由于 direct approache 不依赖于节点表示来建模边连接，因此它们具有更大的灵活性，但在学习矩阵参数方面存在困难。

　　如 3 中所述，大量的 direct approache 使用图正则化器来优化邻接矩阵，它明确地指定了最优图的性质。联合优化邻接矩阵 $\boldsymbol{A}^{\star}$ 和模型参数 $\Theta$ 通常涉及不可微算子，传统的基于梯度的优化不适用。具体地说，GLNN [Gao，2020] 将初始图的结构、稀疏性和特征平滑性合并到一个混合目标中。ProGNN [Jinetal，2020] 包含了一个使用核规范实现的低秩先验。GLNN 和 ProGNN 都采用交替优化方案迭代更新 $\tilde{\boldsymbol{A}}$ 和 $\Theta$。后续工作LRGNN [Xu ，2021] 提出了一种有效的算法来加速邻接矩阵的低秩优化。除了常见的正则化器，GNNExcranerer [Ying，2019] 引入了一种基于互信息的解释生成损失，该信息识别最终任务最具影响力的子图结构：

　　　　$\underset{M}{ \text{min}} -\sum\limits _{c=1}^{C} \mathbb{1}_{y=c} \log P_{\Phi}\left(Y=y \mid \boldsymbol{A}_{c} \odot \sigma(\boldsymbol{M}), \boldsymbol{X}_{c}\right)\quad\quad\quad(13)$

　　其中 $1$ 为指示函数，$\boldsymbol{A}_{c}$ 和 $\boldsymbol{X}_{c}$ 表示标签 $c$ 的计算图及其相关特征，$M$ 为子图进行解释。最近，GSM L [Wan，2021] 提出了一种元学习方法，即将 GSL 表述为一个双层优化问题，其中内环表示下游任务，外环学习最优结构：

　　　　$\boldsymbol{A}^{\star}= \underset{\boldsymbol{A} \in \Phi(\mathcal{G})}{\text{min}} \mathcal{L}_{\mathrm{reg}}\left(f_{\Theta^{\star}}(\boldsymbol{A}, \boldsymbol{X}), \boldsymbol{Y}_{U}\right)\quad\quad\quad(14)$

　　　　$\text { s.t. } \quad \Theta^{\star}=\underset{\Theta}{\operatorname{argmin}} \mathcal{L}_{\text {train }}\left(f_{\Theta}(\boldsymbol{A}, \boldsymbol{X}), \boldsymbol{Y}_{L}\right)\quad\quad\quad(15)$

　　其中，$\Phi(\mathcal{G})$ 指定不导致单例节点的可允许拓扑空间，$\boldsymbol{Y}_{U}$， $\boldsymbol{Y}_{L}$ 是测试集和训练集的节点标签。由于缺少自监督知道，GSML提出了通过元梯度进行二层优化的解决方案。

　　另一组直接方法以概率的方式对邻接矩阵进行建模，假设内在图结构是从一定的分布中抽样的。第一项工作 LDS-GNN [Franceschi，2019] 通过从具有可学习参数的伯努利分布中采样和帧GSL作为二层规划问题，来建模每对节点之间的边。它利用超梯度估计来近似解。此外，BGCN[Zhangetal ，2019] 提出了一种贝叶斯方法，将现有的图视为来自参数随机图族的样本。具体来说，它利用蒙特卡罗辍学对每个生成的图上对模型中的可学习参数进行多次采样。

　　类似地，vGCN [Elinas，2020] 也从贝叶斯的角度制定了GSL，它考虑了先验伯努利分布（由观察图参数化）和基于 GNN 的可能性。由于后验分布的计算在分析上是棘手的，vGCN 利用变分推理来近似推断后验。后验参数的估计通过基于梯度优化的 Evidence Lower BOund (ELBO)，由

　　　　$\begin{array}{l}\mathcal{L}_{\mathrm{ELBO}}(\phi)= \mathbb{E}_{q_{\phi}(\boldsymbol{A})} \log p_{\boldsymbol{\Theta}}(\boldsymbol{Y} \mid \boldsymbol{X}, \boldsymbol{A})-\mathrm{KL}\left(q_{\phi}(\boldsymbol{A}) \| p(\boldsymbol{A})\right)\end{array}\quad\quad\quad(16)$

　　其中第一项是基于 GNN 的似然，第二项测量近似后验和先验之间的 KL 散度。

4.2 Postprocessing Graph Structures

　　在得到一个中间图结构 $\tilde{A}$ 后，我们考虑以下两个常见的后处理步骤来计算最终的邻接矩阵 $A^{\star}$。

4.2.1 Discrete Sampling

　　涉及采样步骤的GSL模型假设细化的图是通过对某些离散分布的额外的采样过程生成的，其参数由中间图邻接矩阵 $\tilde{A}$ 的条目给出。附加的抽样步骤不是直接将这个邻接矩阵作为边连接权值，而是恢复了图的离散性质，并给结构学习者更大的灵活性来控制最终图的性质，例如稀疏性。

　　请注意，从离散分布中进行抽样是不可微的。除了上述使用特殊优化方法的直接方法（4.1.3）外，我们还讨论了通过重新参数化技巧与传统的梯度下降方法进行优化，该技巧允许梯度通过采样操作反向传播。一种常见的方法是利用 Gumbel-softmax 技巧 [Jang等人，2017]，通过从 Gumbel 分布中抽取样本（即边）来生成可微分图。以神经稀疏为例[Zheng，2020]为例；它近似于分类分布如下：

　　　　${\large \boldsymbol{A}_{u v}^{\star}=\frac{\exp \left(\left(\log \tilde{\boldsymbol{A}}_{u v}+\epsilon_{v}\right) / \tau\right)}{\sum_{w \in \mathcal{N}_{u}} \exp \left(\left(\log \widetilde{\boldsymbol{A}}_{u v}+\epsilon_{w}\right) / \tau\right)}} \quad\quad\quad(17)$

　　其中，$\epsilon .=-\log (-\log (s))$ 是来自一个具有噪声的 Gumbel 分布 $s \sim \operatorname{Uniform}(0,1)$ 和 $\tau$ 是一个温度超参数。为了生成 $k$ 个邻域图，重复上述过程，不替换 $k$ 次。当 $\tau$ 很小时，Gumbel分布类似于离散分布，这在结果图上具有很强的稀疏性。GAUG-O[Zhao，2021c]采用了类似的方法，并增加了额外的边预测损失来稳定训练。

　　除了Gumbel-Softmax技巧，其他端到端离散抽样的实现包括 AD-GCL 使用的 Gumbel-Max ，以及 hard concrete [Louizos，2018]，由 PGExplainer 推广 [Luo et al., 2020] 和PTDNet [Luo et al., 2021a]。GIB [Wu，2020] 提出了两个模型变量，将注意力权重视为分类分布和伯努利分布的参数，从中对细化的图结构进行抽样。

4.2.2 Residual Connections

　　初始图结构，如果可用，通常携带关于拓扑的重要先验知识。因此，可以合理地假设优化后的图结构与原始图结构略有变化。基于这一假设，一些工作添加了残差连接 [Heetal.，2016] 来纳入图结构的初始状态，这也被发现可以加速和稳定训练 [Lietal.，2018]。

　　在数学上，使用更新函数将学习到的边权值与原始邻接矩阵相结合：

　　　　$A^{\star}=h(\boldsymbol{A}, \widetilde{\boldsymbol{A}})\quad\quad\quad(18)$

　　在其他文献中，我们可以将学习到的邻接矩阵 $\tilde{A}$ 与原始结构 $A$ 结合起来作为残差。一个超参数 $\alpha$ 用于调节每个部分的影响，其中 $Eq.18$ 被实例化为：

　　　　$\boldsymbol{A}^{\star}=\alpha \widetilde{\boldsymbol{A}}+(1-\alpha) \boldsymbol{A}\quad\quad\quad(19)$

　　其他流行的 $h(\cdot, \cdot)$ 的选择包括多层感知器和通道式注意网络，它们能够自适应地融合这两种结构。

　　请注意，原始的图结构可以用邻接矩阵以外的不同形式来表示。例如，AGCN [Li，2018]将图拉普拉斯矩阵作为先验知识；AM-GCN [Wang，2020] 将原始特征图独立传播到学习特征图上，并将两种表示结合起来获得最终的节点嵌入。

5 Challenges and Future Directions

Beyond homogeneity
Beyond homophily
Learning structures in absence of rich attributes
Increasing scalability
Towards task-agnostic structure learning

posted @ 2022-07-30 10:45 多发Paper哈阅读(690) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Blair