论文解读(GCNII)《Simple and Deep Graph Convolutional Networks》

论文信息

论文标题:Simple and Deep Graph Convolutional Networks
论文作者:Ming Chen, Zhewei Wei, Zengfeng Huang, Bolin Ding, Yaliang Li
论文来源:2020,PMLR
论文地址:download
论文代码:download

1 Introduction

  目前的 GNNs 是浅层的神经网络,且存在过平滑(over-smoothing)的问题。本文对 朴素版本的 GCN 加上两种有效的技巧: Initial residual 和 Identity mapping 。

  出发点:

    • 缓解过平滑问题;
    • 深层模型;

2 Relatework

2.1 Vanilla GCN

  Vanilla GCN 建议可以进一步用拉普拉斯的 $K$ 次多项式来逼近图的卷积运算:

    $\mathbf{U} g_{\theta}(\Lambda) \mathbf{U}^{T} \mathbf{x} \approx \mathbf{U}\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{\Lambda}^{\ell}\right) \mathbf{U}^{\top} \mathbf{x}=\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{L}^{\ell}\right) \mathbf{x}$

回顾:

  二代GCN中:

  $g_{\theta}(\Lambda)=\sum\limits _{l=0}^{K} \theta_{l} \Lambda^{l}$

  $\begin{aligned}U g_{\theta}(\Lambda) U^{T}\mathbf{x} &=U \sum_{l=0}^{K} \theta_{l} \Lambda^{l} U^{T}\mathbf{x}\\&=\sum_{l=0}^{K} \theta_{l} U \Lambda^{l} U^{T} \mathbf{x}\\&=\sum_{l=0}^{K} \theta_{l} L^{l}\mathbf{x}\end{aligned}$

  其中:

  $\mathbf{L}=\mathbf{I}_{n}-\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}$ 是一个 对称正半定矩阵 ,可以进行特征分解 $\mathbf{L}=\mathbf{U} \Lambda \mathbf{U}^{T}$ 。

    vanilla GCN (Kipf & Welling, 2017) 设置 $K=1, \theta_{0}=2 \theta , \theta_{1}=-\theta$,然后使用 renormalization trick 将矩阵 $\mathbf{I}+\mathbf{D}^{-1 / 2} \mathbf{A D}^{-1 / 2}$ 替换为 $\tilde{\mathbf{P}}=\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}=\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2}\left(\mathbf{A}+\mathbf{I}_{n}\right)\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2}$,得到图卷积层为:

    $\mathbf{H}^{(\ell+1)}=\sigma\left(\tilde{\mathbf{P}} \mathbf{H}^{(\ell)} \mathbf{W}^{(\ell)}\right)   \quad\quad\quad(1)$

2.2 SGC

  SGC 结果表明,通过叠加 $K$ 层,GCN对应于 $\tilde{G}$ 的图谱域上的一个固定的 $K$ 阶多项式滤波器。

  特别地,让 $\tilde{\mathbf{L}}=\mathbf{I}_{n}-\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}$ 表示自环图 $\tilde{G}$ 的归一化图拉普拉斯矩阵。因此,对信号 $\mathbf{x}$ 应用 $k$ 层GCN对应于 $ \left(\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}\right)^{K} \mathbf{x}=\left(\mathbf{I}_{n}-\tilde{\mathbf{L}}\right)^{K} \mathbf{x}$。还表明,通过向每个节点添加一个自循环,$\tilde{\mathbf{L}}$ 有效地缩小了底层的图谱。

2.3 APPNP

  采用 $k$ 阶固定滤波器。设 $f_{\theta}(\mathbf{X})$ 表示特征矩阵 $X$ 上的两层全连通神经网络的输出,PPNP 的模型定义为

    $\mathbf{H}=\alpha\left(\mathbf{I}_{n}-(1-\alpha) \tilde{\mathbf{A}}\right)^{-1} f_{\theta}(\mathbf{X})  \quad\quad\quad(2)$

  由于 Personalized PageRank 的特性,这种滤波器保持了局部性,因此适用于分类任务。 (Klicpera et al., 2019a) 还相应提出了 APPNP ,一种替换 $\alpha\left(\mathbf{I}_{n}-(1-\alpha) \tilde{\mathbf{A}}\right)^{-1}$ 为截断幂迭代(truncated power iteration)。在形式上,具有 $k$ 跳聚合的 APPNP 被定义为:

    $\boldsymbol{H}^{(\ell+1)}=(1-\alpha) \tilde{\boldsymbol{P}} \boldsymbol{H}^{(\ell)}+\alpha \boldsymbol{H}^{(0)}  \quad\quad\quad(3)$

  其中,$\boldsymbol{H}^{(0)}=f_{\theta}(\boldsymbol{X})$。通过解耦特征转换和传播,PPNP和APPNP可以在不增加神经网络层数的情况下聚合来自多跳邻居的信息。

2.4 JKNet

  在最后一层,JKNet 将所有层的表示 $\left[\mathbf{H}^{(1)}, \ldots, \mathbf{H}^{(K)}\right]$ 拼接起来 ,来学习对不同的图子结构的不同阶数的表示。
  JKNet 说明了:
    • 一个 $K$ 层 vanilla GCN 模型模拟了自环图 $\tilde{G}$ 中 $K$ 步的随机游走;
    • 通过结合前一层的所有表示,JKNet 缓解了过平滑的问题;

2.5 DropEdge

  将自环图 $\tilde{G}$ 中的部分边删除延缓了过平湖的问题,令 $\tilde{\mathbf{P}}_{\mathrm{drop}}$ 表示 随机去除一些边的重整化图卷积矩阵,将具有 DropEdge 的普通GCN定义为:

    $\mathbf{H}^{(\ell+1)}=\sigma\left(\tilde{\mathbf{P}}_{\mathrm{drop}} \mathbf{H}^{(\ell)} \mathbf{W}^{(\ell)}\right)  \quad\quad\quad(4)$

3 GCNII Model

  众所周知(Wuetal.,2019),通过叠加 $K$ 层,vanilla GCN 在 $\tilde{G}$ 的图谱域上模拟了一个固定系数 $\theta$ 的多项式滤波器 $\left(\sum_{\ell=0}^{K} \theta_{\ell} \tilde{\mathbf{L}} ^{\ell}\right) \mathbf{X}$。固定的系数限制了多层GCN模型的表达能力,从而导致了过度平滑。为了将GCN扩展到一个真正的深度模型,我们需要使GCN能够表达一个具有任意系数的 $K$ 阶多项式滤波器。我们证明了这可以通过两种简单的技术来实现:Initial residual connection 和 Identity mapping。

  在形式上,我们将GCNII 的第 $\ell$ 层定义为:

    $\mathbf{H}^{(\ell+1)}=\sigma\left(\left(\left(1-\alpha_{\ell}\right) \tilde{\mathbf{P}} \mathbf{H}^{(\ell)}+\alpha_{\ell} \mathbf{H}^{(0)}\right)\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}^{(\ell)}\right)\right)  \quad\quad\quad(5)$

  其中,$\alpha_{\ell}$ 和 $\beta_{\ell}$ 代表着超参数,$\tilde{\mathbf{P}}=\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}$ 是经 renormalization trick 的图卷积矩阵。

  对比 vanilla GCN ,

    • 1) 我们将平滑的表示 $\tilde{\mathbf{P}} \mathbf{H}^{(\ell)}$ 与第一层 $\mathbf{H}^{(0)}$ 的初始残差连接相结合;
    • 2) 我们在第 $\ell $ 个权重矩阵 $\mathbf{W}^{(\ell)}$ 中添加一个恒等矩阵映射;
Initial residual connection

  (Kipf & Welling, 2017) 提出了结合平滑表示法 $\tilde{\mathbf{P}} \mathbf{H}^{(\ell)}$ 和 $\mathbf{H}^{(\ell)}$ 的残差连接,这被证明了只是部分缓解过平滑问题,且当层数堆叠多层后依旧存在着性能骤降的问题。

Identity mapping

  受 (Hardt & Ma, 2017) 提出的 linear ResNet :$\mathbf{H}^{(\ell+1)}=   \mathbf{H}^{(\ell)}\left(\mathbf{W}^{(\ell)}+\mathbf{I}_{n}\right)$ 启发,它满足 1)  最优的权重矩阵 $\mathbf{W}^{(l)} $ 具有较小的范数;2) 唯一的临界点是全局最小值。第一个性质允许我们进行在 $\mathbf{W}^{\ell}$ 上很强的正则化处理,避免过拟合,而后者在训练数据有限的半监督任务中是可取的。

  (Oono & Suzuki, 2020) 从理论上证明了 $k$ 层GCNs的节点特征会收敛到子空间并导致信息损失。特别地,收敛速度取决于$s^{K}$,其中 $s$ 是权值矩阵 $\mathbf{W}^{(\ell)}, \ell=0, \ldots, K-1$ 的最大奇异值。通过替换 $\mathbf{W}^{(\ell)}$ 替换为 $(1-   \left.\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}^{(\ell)}$,并对 $\mathbf{W}^{(\ell)}$ 进行正则化,我们强制 $\mathbf{W}^{(\ell)}$ 的范数很小。因此,在 $\mathbf{W}^{(\ell)} $ 的奇异值将接近于1。因此,最大奇异值 $s$ 也将接近于 $1$,这意味着 $s^{K}$ 较大,信息损失被减轻。

  设置 $\beta_{\ell}$ 的原则是确保权重矩阵的衰减随着我们堆叠更多的层而自适应地增加。在实践中,我们设置了 $\beta_{\ell}=\log \left(\frac{\lambda}{\ell}+1\right) \approx \frac{\lambda}{\ell}$,其中 $\lambda$ 是一个超参数。

Connection to iterative shrinkage-thresholding

  考虑了 LASSO 的目标函数:

    $\underset{x \in \mathcal{R}^{n}}{\text{min}}\frac{1}{2}\|\mathbf{B} \mathbf{x}-\mathbf{y}\|_{2}^{2}+\lambda\|\mathbf{x}\|_{1}$
  其中,$\mathbf{x}$ 是我们需要恢复的信号,$\mathbf{B}$ 作为测量矩阵,$\mathbf{y}$ 是观测变量。本文中 $\mathrm{y}$ 是节点原始特征,$\mathbf{x}$ 是网络学习到的表示。

  上述问题是稀疏编码问题,迭代收缩阈值算法是解决上述优化问题的有效方法。第 $t+1$ 次迭代更新为:

    $\mathbf{x}^{t+1}=P_{\mu_{t} \lambda}\left(\mathbf{x}^{t}-\mu_{t} \mathbf{B}^{T} \mathbf{B} \mathbf{x}^{t}+\mu_{t} \mathbf{B}^{T} \mathbf{y}\right)$

  其中,$\mu_{t}$ 是步长,$P_{\beta}(\cdot)$  是软阈值化函数($\beta>0$):

    $P_{\theta}(z)=\left\{\begin{array}{lr}z-\theta, & \text { if } z \geq \theta \\0, & \text { if }|z|<\theta \\z+\theta, & \text { if } z \leq-\theta\end{array}\right.$

  接着,重参数化 $-\mathbf{B}^{\mathbf{T}} \mathbf{B}$ 为 $\mathbf{W}$,上面的更新公式与我们的方法中使用的更新公式非常相似。具体的,我们有 $\mathbf{x}^{t+1}=   P_{\mu_{t} \lambda}\left(\left(\mathbf{I}+\mu_{t} \mathbf{W}\right) \mathbf{x}^{t}+\mu_{t} \mathbf{B}^{T} \mathbf{y}\right)$,其中 $\mu_{t} \mathbf{B}^{T} \mathbf{y}$ 代表着 初始残差连接,$\mathbf{I}+\mu_{t} \mathbf{W}$ 代表着 恒等映射。

4 Spectral Analysis

4.1 Spectral analysis of multi-layer GCN

  我们考虑以下具有残差连接的GCN模型:

    $\mathbf{H}^{(\ell+1)}=\sigma\left(\left(\tilde{\mathbf{P}} \mathbf{H}^{(\ell)}+\mathbf{H}^{(\ell)}\right) \mathbf{W}^{(\ell)}\right) .  \quad\quad\quad(6)$

  其中,$\tilde{\mathbf{P}}=\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}$ 是经过 renormalization trick 的图卷积矩阵。(Wang et al., 2019)  指出 $\text{Eq.6}$  是概率转移矩阵为 $\frac{\mathbf{I}_{n}+\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}}{2}$ 的懒惰随机游走。这种懒惰随机游走最终收敛到平稳状态,从而导致过度平滑。

  现在我们推导了平稳向量的封闭形式,并分析了这种收敛速度。我们的分析表明,单个节点的收敛率取决于它的度,我们进行了实验来支持这一理论发现。特别地,我们有以下定理。

  

  

  

5 GCNII*

    $\begin{aligned}\mathbf{H}^{(\ell+1)}=& \sigma\left(\left(1-\alpha_{\ell}\right) \tilde{\mathbf{P}} \mathbf{H}^{(\ell)}\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}_{1}^{(\ell)}\right)+\right.\\&\left.+\alpha_{\ell} \mathbf{H}^{(0)}\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}_{2}^{(\ell)}\right)\right)\end{aligned}$

6 Experiments

Semi-supervised Node Classifification

  

Full-Supervised Node Classifification

  

Inductive Learning

  

 

posted @ 2022-07-19 10:34  图神经网络  阅读(950)  评论(0编辑  收藏  举报
Live2D