论文解读(GCNII)《Simple and Deep Graph Convolutional Networks》
论文信息
论文标题:Simple and Deep Graph Convolutional Networks
论文作者:Ming Chen, Zhewei Wei, Zengfeng Huang, Bolin Ding, Yaliang Li
论文来源:2020,PMLR
论文地址:download
论文代码:download
1 Introduction
目前的 GNNs 是浅层的神经网络,且存在过平滑(over-smoothing)的问题。本文对 朴素版本的 GCN 加上两种有效的技巧: Initial residual 和 Identity mapping 。
出发点:
-
- 缓解过平滑问题;
- 深层模型;
2 Relatework
2.1 Vanilla GCN
Vanilla GCN 建议可以进一步用拉普拉斯的 $K$ 次多项式来逼近图的卷积运算:
$\mathbf{U} g_{\theta}(\Lambda) \mathbf{U}^{T} \mathbf{x} \approx \mathbf{U}\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{\Lambda}^{\ell}\right) \mathbf{U}^{\top} \mathbf{x}=\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{L}^{\ell}\right) \mathbf{x}$
回顾:
二代GCN中:
$g_{\theta}(\Lambda)=\sum\limits _{l=0}^{K} \theta_{l} \Lambda^{l}$
$\begin{aligned}U g_{\theta}(\Lambda) U^{T}\mathbf{x} &=U \sum_{l=0}^{K} \theta_{l} \Lambda^{l} U^{T}\mathbf{x}\\&=\sum_{l=0}^{K} \theta_{l} U \Lambda^{l} U^{T} \mathbf{x}\\&=\sum_{l=0}^{K} \theta_{l} L^{l}\mathbf{x}\end{aligned}$
其中:
$\mathbf{L}=\mathbf{I}_{n}-\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}$ 是一个 对称正半定矩阵 ,可以进行特征分解 $\mathbf{L}=\mathbf{U} \Lambda \mathbf{U}^{T}$ 。
vanilla GCN (Kipf & Welling, 2017) 设置 $K=1, \theta_{0}=2 \theta , \theta_{1}=-\theta$,然后使用 renormalization trick 将矩阵 $\mathbf{I}+\mathbf{D}^{-1 / 2} \mathbf{A D}^{-1 / 2}$ 替换为 $\tilde{\mathbf{P}}=\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}=\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2}\left(\mathbf{A}+\mathbf{I}_{n}\right)\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2}$,得到图卷积层为:
$\mathbf{H}^{(\ell+1)}=\sigma\left(\tilde{\mathbf{P}} \mathbf{H}^{(\ell)} \mathbf{W}^{(\ell)}\right) \quad\quad\quad(1)$
2.2 SGC
SGC 结果表明,通过叠加 $K$ 层,GCN对应于 $\tilde{G}$ 的图谱域上的一个固定的 $K$ 阶多项式滤波器。
2.3 APPNP
采用 $k$ 阶固定滤波器。设 $f_{\theta}(\mathbf{X})$ 表示特征矩阵 $X$ 上的两层全连通神经网络的输出,PPNP 的模型定义为
$\mathbf{H}=\alpha\left(\mathbf{I}_{n}-(1-\alpha) \tilde{\mathbf{A}}\right)^{-1} f_{\theta}(\mathbf{X}) \quad\quad\quad(2)$
由于 Personalized PageRank 的特性,这种滤波器保持了局部性,因此适用于分类任务。 (Klicpera et al., 2019a) 还相应提出了 APPNP ,一种替换 $\alpha\left(\mathbf{I}_{n}-(1-\alpha) \tilde{\mathbf{A}}\right)^{-1}$ 为截断幂迭代(truncated power iteration)。在形式上,具有 $k$ 跳聚合的 APPNP 被定义为:
$\boldsymbol{H}^{(\ell+1)}=(1-\alpha) \tilde{\boldsymbol{P}} \boldsymbol{H}^{(\ell)}+\alpha \boldsymbol{H}^{(0)} \quad\quad\quad(3)$
其中,$\boldsymbol{H}^{(0)}=f_{\theta}(\boldsymbol{X})$。通过解耦特征转换和传播,PPNP和APPNP可以在不增加神经网络层数的情况下聚合来自多跳邻居的信息。
2.4 JKNet
-
- 一个 $K$ 层 vanilla GCN 模型模拟了自环图 $\tilde{G}$ 中 $K$ 步的随机游走;
- 通过结合前一层的所有表示,JKNet 缓解了过平滑的问题;
2.5 DropEdge
$\mathbf{H}^{(\ell+1)}=\sigma\left(\tilde{\mathbf{P}}_{\mathrm{drop}} \mathbf{H}^{(\ell)} \mathbf{W}^{(\ell)}\right) \quad\quad\quad(4)$
3 GCNII Model
在形式上,我们将GCNII 的第 $\ell$ 层定义为:
其中,$\alpha_{\ell}$ 和 $\beta_{\ell}$ 代表着超参数,$\tilde{\mathbf{P}}=\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}$ 是经 renormalization trick 的图卷积矩阵。
对比 vanilla GCN ,
-
- 1) 我们将平滑的表示 $\tilde{\mathbf{P}} \mathbf{H}^{(\ell)}$ 与第一层 $\mathbf{H}^{(0)}$ 的初始残差连接相结合;
- 2) 我们在第 $\ell $ 个权重矩阵 $\mathbf{W}^{(\ell)}$ 中添加一个恒等矩阵映射;
(Kipf & Welling, 2017) 提出了结合平滑表示法 $\tilde{\mathbf{P}} \mathbf{H}^{(\ell)}$ 和 $\mathbf{H}^{(\ell)}$ 的残差连接,这被证明了只是部分缓解过平滑问题,且当层数堆叠多层后依旧存在着性能骤降的问题。
受 (Hardt & Ma, 2017) 提出的 linear ResNet :$\mathbf{H}^{(\ell+1)}= \mathbf{H}^{(\ell)}\left(\mathbf{W}^{(\ell)}+\mathbf{I}_{n}\right)$ 启发,它满足 1) 最优的权重矩阵 $\mathbf{W}^{(l)} $ 具有较小的范数;2) 唯一的临界点是全局最小值。第一个性质允许我们进行在 $\mathbf{W}^{\ell}$ 上很强的正则化处理,避免过拟合,而后者在训练数据有限的半监督任务中是可取的。
设置 $\beta_{\ell}$ 的原则是确保权重矩阵的衰减随着我们堆叠更多的层而自适应地增加。在实践中,我们设置了 $\beta_{\ell}=\log \left(\frac{\lambda}{\ell}+1\right) \approx \frac{\lambda}{\ell}$,其中 $\lambda$ 是一个超参数。
考虑了 LASSO 的目标函数:
上述问题是稀疏编码问题,迭代收缩阈值算法是解决上述优化问题的有效方法。第 $t+1$ 次迭代更新为:
$\mathbf{x}^{t+1}=P_{\mu_{t} \lambda}\left(\mathbf{x}^{t}-\mu_{t} \mathbf{B}^{T} \mathbf{B} \mathbf{x}^{t}+\mu_{t} \mathbf{B}^{T} \mathbf{y}\right)$
其中,$\mu_{t}$ 是步长,$P_{\beta}(\cdot)$ 是软阈值化函数($\beta>0$):
$P_{\theta}(z)=\left\{\begin{array}{lr}z-\theta, & \text { if } z \geq \theta \\0, & \text { if }|z|<\theta \\z+\theta, & \text { if } z \leq-\theta\end{array}\right.$
接着,重参数化 $-\mathbf{B}^{\mathbf{T}} \mathbf{B}$ 为 $\mathbf{W}$,上面的更新公式与我们的方法中使用的更新公式非常相似。具体的,我们有 $\mathbf{x}^{t+1}= P_{\mu_{t} \lambda}\left(\left(\mathbf{I}+\mu_{t} \mathbf{W}\right) \mathbf{x}^{t}+\mu_{t} \mathbf{B}^{T} \mathbf{y}\right)$,其中 $\mu_{t} \mathbf{B}^{T} \mathbf{y}$ 代表着 初始残差连接,$\mathbf{I}+\mu_{t} \mathbf{W}$ 代表着 恒等映射。
4 Spectral Analysis
4.1 Spectral analysis of multi-layer GCN
我们考虑以下具有残差连接的GCN模型:
$\mathbf{H}^{(\ell+1)}=\sigma\left(\left(\tilde{\mathbf{P}} \mathbf{H}^{(\ell)}+\mathbf{H}^{(\ell)}\right) \mathbf{W}^{(\ell)}\right) . \quad\quad\quad(6)$
其中,$\tilde{\mathbf{P}}=\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}$ 是经过 renormalization trick 的图卷积矩阵。(Wang et al., 2019) 指出 $\text{Eq.6}$ 是概率转移矩阵为 $\frac{\mathbf{I}_{n}+\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}}{2}$ 的懒惰随机游走。这种懒惰随机游走最终收敛到平稳状态,从而导致过度平滑。
现在我们推导了平稳向量的封闭形式,并分析了这种收敛速度。我们的分析表明,单个节点的收敛率取决于它的度,我们进行了实验来支持这一理论发现。特别地,我们有以下定理。
5 GCNII*
$\begin{aligned}\mathbf{H}^{(\ell+1)}=& \sigma\left(\left(1-\alpha_{\ell}\right) \tilde{\mathbf{P}} \mathbf{H}^{(\ell)}\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}_{1}^{(\ell)}\right)+\right.\\&\left.+\alpha_{\ell} \mathbf{H}^{(0)}\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}_{2}^{(\ell)}\right)\right)\end{aligned}$
6 Experiments
因上求缘,果上努力~~~~ 作者:图神经网络,转载请注明原文链接:https://www.cnblogs.com/BlairGrowing/p/16481899.html