Learning Disentangled Graph Convolutional Networks Locally and Globally论文阅读笔记

Abstract

存在的问题：

尽管现有的gcn取得了成功，但它们通常忽略了现实世界图中通常出现的纠缠潜在因素，这导致了无法解释的节点表示。更糟糕的是，虽然重点放在局部图信息上，但整个图的全局知识在一定程度上丢失了。

提出的方法：

为了解决这些问题，我们提出了一个新的GCNs框架，称为LGD-GCN，利用局部和全局信息来解开潜在空间中的节点表示。具体地说，我们提出局部利用邻域路由机制，用统计混合模型表示解耦潜在连续空间。从潜在的空间中，各种新的图可以被解开和学习，以整体地反映不同因素下的隐藏结构。一方面，设计了一种新的正则化器，以鼓励模型在潜在空间中表达的因子间多样性。另一方面，通过使用传递这些新图的消息，对因素特定的信息进行全局编码，以增强因素内的一致性。

Introduction

再次强调存在的问题

大多数现有的GCN模型都侧重于利用局部图信息，并采取整体的方法，即将节点邻域解释为一个感知整体，而忽略内部的区别。然而，一个真实世界的图通常包含异构节点关系，由许多潜在因素的纠缠驱动。例如，社交网络中的用户通常出于各种原因与他人联系，如家庭、工作和/或爱好，这些原因通常以不同的类型存储部分信息。由于忽略了潜在的因素，整体的方法无法捕捉到表达性的部分信息，从而使学习到的表征严重纠缠，信息较少。另一方面，虽然在局部和全局建模数据的好处已经在各种机器学习模型中得到了很好的证明，但也有一些gcn的变体结合了局部和全局图信息。

最近，一些工作试图通过邻域划分来解开图数据背后的潜在因素。尽管设计新颖，但它们大多只依赖于局部节点邻域，类似于大多数gcn，这可能会带来意想不到的问题。首先，来自局部范围的信息可以在整个图中发生显著的变化。仅仅依赖于它，它们可以很容易地产生潜在的表征，对不同的因素失去一致的簇质心。这可能会削弱解耦特征之间的内部相关性和因子间的可分离性，从而导致可解释性的降低。其次，局部邻域信息可能是稀缺的和有限的，特别是在稀疏图中，这禁止模型学习信息节点方面，并产生良好的性能提高

提出本文方法

在这项工作中，为了解决上述问题，我们提出了一种新的局部和全局解耦系统（LGD-GCN）。其核心思想是，我们通过挖掘局部和全局图信息来学习解耦节点表示。特别地，我们首先通过邻域路由机制来划分节点上的局部解耦。然后，在考虑不同因素的情况下，对节点的总体密度进行建模，并从不同的角度进一步揭示隐藏的节点关系，得到全局信息。

为此，对解耦潜单元进行了统计混合建模，以推导出潜连续空间。这使得在不同的子空间中，有不同的密度覆盖所有特定的节点。据此，开发了一种新的调节器来促进因子间的多样性。它鼓励这些潜在单元之间根据不同的因素的可分离性，并捕获不相关的信息。在此之后，我们设法通过只连接不同空间区域内的相邻邻居来建立一个具有稀疏属性的不同的新图。这些新的图在不同方面反映了底层数据结构，即隐藏的节点关系。在它们上使用消息传递方案可以有效地编码特定于不同因素的全局信息。这进一步加强了因素内的一致性，即解耦特征和相同因子之间的相关性。因此，可以在输出空间中增强模型的解开信息量。

本文的贡献为：

通过实证分析表明，现有的解耦方法在仅依赖于局部图信息时，可能会产生具有弱解耦因子的潜在表示。因此，当涉及到稀疏图时，这些解耦方法的性能增益变得具有边际性。
为了克服上述限制，我们提出了一个新的GCNs框架（LGD-GCN），以一种更有效的方式解开图数据背后的潜在因素。具体来说，通过局部地利用邻域路由和全局地传递消息，LGD-GCN可以通过促进因子间多样性和增强因子内一致性来解开节点表示。

Method

模型的整体结构如下：

我们提出了一个新的GCNs框架，称为LGD-GCN，以学习局部和全局的解耦节点表示，如图3所示。首先利用邻域路由机制，我们得到了保留局部图信息关于不同的因子的解耦单元。然后，我们建议进一步合并全局图信息。为此，我们的LGD-GCN揭示了节点之间潜在的因子感知关系，并利用它们来更好地学习解耦表示，促进因子间多样性和加强因子内一致性。

建模潜在的连续空间

我们假设解耦潜单元 $\hat{z}$ 遵循一个高斯混合分布，表示为

$p(\hat{\mathbf{z}})=\sum_{m=1}^Mq(m)\mathcal{N}(\hat{\mathbf{z}};\mu_m,\Sigma_m)$

$\boldsymbol{\mu}_m\in\mathbb{R}^{d/M}\mathrm{~and~}\boldsymbol{\Sigma}_m\in\mathbb{R}^{(d/M)\times(d/M)}$ 是在隐空间因子m相关的平均值和协方差，q (m)是因子m的先验概率，并设置为（1/M）。为了将这一假设用于空间建模，我们通过它们的相关因子，也就是对于每个节点i和因子m的 $p(\hat{\mathbf{z}}_{i,m}|m)$ ，使解耦潜在单元的条件似然值最大化。它等价于通过去除常数来最小化负对数项

$\mathcal{L}_{i,m}^\mathrm{space}=(\hat{\mathbf{z}}_{i,m}-\boldsymbol{\mu}_m)^T\boldsymbol{\Sigma}_m^{-1}(\hat{\mathbf{z}}_{i,m}-\boldsymbol{\mu}_m).$

它的功能与一些监督嵌入方法非常相似，这些方法将类别折叠成一个低维嵌入，并减少了类内成对距离。我们引入了每个潜在单元 $\hat{z_{i,m}}$ 与其全局推断的中心μm之间的马氏距离，而不是约束成对的样本。因此，一个潜在的连续空间可以用更紧凑的数据流形推导出，其中潜在的单元被鼓励对它们的因子密度更有区别。

最后，通过对节点和因子的平均，给出了空间建模的正则化方法

$\mathcal{L}_{\mathrm{space}}=\frac{1}{|V|M}\sum_{i\in V}\sum_{m=1}^{M}\mathcal{L}_{i,m}^{\mathrm{space}}$

促进因子间的多样性

促进多样性学习的目的是鼓励潜在空间模型中的不同组成部分保持相互的不相关和不同。在上一节中，我们通过独立地建模每个解耦因子的密度来推导出一个潜在的连续空间。然而，具有不同因素的近似分布仍然可以是重叠的。因此，被解耦的潜在单元可能会保留冗余的信息，并失去信息量。为了解决这个问题，我们建议促进不同潜在因素之间的多样性，以获取不相关的信息。

特别地，我们定义了因子多样性与一个采样的潜在单元的概率保持接近不同的因子密度。受决定式点过程的启发，我们将每个节点i的因子多样性表示为

$\mathcal{F}_i^{\mathrm{div}}=\det(\mathbf{\hat{L}}_i^T\mathbf{\hat{L}}_i)$

其中：
$\hat{\mathbf{L}}_i\quad=\quad[(\mathbf{L}_{i,1}/\|\mathbf{L}_{i,1}\|_2),(\mathbf{L}_{i,2}/\|\mathbf{L}_{i,2}\|_2),\ldots,$
且
$\mathbf{L}_{i,m}=[\mathcal{N}(\hat{\mathbf{z}}_{i,m};\boldsymbol{\mu}_{1},\boldsymbol{\Sigma}_{1}),\mathcal{N}(\hat{\mathbf{z}}_{i,m};\boldsymbol{\mu}_2,\boldsymbol{\Sigma}_2),\ldots,\mathcal{N}(\hat{\mathbf{z}}_{i,m};\boldsymbol{\mu}_M,\boldsymbol{\Sigma}_M)]^T$

是M维的向量，它包含给定M个不同因子的解耦潜在单元 $\hat{z_{i,m}}$ 的条件似然

为了促进因子的多样性，我们引入了多样性的促进正则化器作为

$\mathcal{L}_{\mathrm{div}}=-\frac{1}{|\mathcal{V}|}\sum_{i\in\mathcal{V}}\log(\mathcal{F}_{i}^{\mathrm{div}})$

这一过程本质上可以修剪冗余，增强解开的信息量，最终促进因子间的多样性。

这部分一堆的数学公式也没看懂，但是大致的意思是要将分布拉开一些，促进因子的多样性

加强因子内的一致性

虽然节点关系可以很自然地在图中使用，但我们认为，由于数据损坏或信息缺失，它们对于解耦图学习是不完善的。以一个巨大的稀疏图为例。大多数节点很难从它们的小邻域中吸收足够的信息，特别是在平均邻域大小远远小于待解开的潜在因素的数量的情况下。 另一方面，原始图本质上是由节点的原始特征空间构造出来的，在将节点特征投影到不同的通道中进行解耦后，可能不包含所需的拓扑结构。为了缓解这一问题，我们建议从潜在空间中揭示节点之间的隐藏关系，并利用它们来编码更多的信息，这是有益的。

在之前所述的建模的潜在空间将所有节点的解耦的潜在单元嵌入到一个不同的子空间中，从这个子空间中可以通过连接相邻的邻居自然地构造一个新的图。这些图期望从不同角度反映整体结构信息，揭示关于不同的因素的隐藏节点关系。然后，允许解耦的潜在单元在其潜在图上传播，然后进行邻域聚合。因此，因子特定信息可以对节点进行全局选择性编码，进一步加强因子内部的一致性。实际上，有很多方法可以构造潜在图，我们在这里列出了三个流行的方法

1.KNN

如果两个样本i和j属于另一个的k最近邻，则在kNN图中连接。在形式上，邻接矩阵为

$\mathbf{A}_{[i,j]}^{\mathrm{kNN}}=\begin{cases}1,&\mathcal{P}(i,j)\leq\mathcal{P}(i,i_k)\mathrm{~or~}\mathcal{P}(j,j_k)\\0,&\mathrm{otherwise}&\end{cases}$

其中，P（·）表示成对距离，ik和jk分别为样本i和j的第k个最近邻。

2.连续KNN

在建模数据样本时不均匀分布的情况下，它提供了一个较少离散的kNN版本

$\mathbf{A}_{[i,j]}^{\mathrm{CkNN}}=\begin{cases}1,&\mathcal{P}(i,j)<\delta\sqrt{\mathcal{P}(i,i_k)\mathcal{P}(j,j_k)}\\0,&\mathrm{otherwise}&\end{cases}$