How Powerful is Implicit Denoising in Graph Neural Networks

Liu S., Ying R., Dong H., Lin L., Chen J., Wu D. How powerful is implicit denoising in graph neural networks? arXiv preprint arXiv: 2209.14514, 2022.

这篇文章理论分析了 GNN 去噪的内在机制.

符号说明

  • \(\mathcal{G} = (\mathcal{V}, \mathcal{F})\), 无向图;
  • \(|\mathcal{V}| = n\);
  • \(A \in \{0, 1\}^{n \times n}\), 邻接矩阵;
  • \(\mathcal{N}_i = \{v_i| A_{ij} = 1\}\), 结点 \(v_i\) 的一阶邻居;
  • \(D, D_{ii} = \sum_j A_{ij}\);
  • \(\tilde{A} = D^{-1/2} A D^{-1/2}\);
  • \(\tilde{L} = I - \tilde{A}\);
  • \(X \in \mathbb{R}^{n \times d}\), feature matrix;
  • \(Y \in \{0, 1\}^{n \times c}\), label matrix, ont-hot;

GNN 的去噪能力

  • 现有的 GNN 可以近似等价于如下的一个优化问题:

    \[\tag{1} q(F) = \min_F \|F - X\|_F^2 + \lambda \text{ tr }(F^T \tilde{L}F); \]

  • 通过 \(\nabla q(F) = 0\), 可以得到如下的一个显式解:

    \[F = (I + \lambda \tilde{L})^{-1}X \approx \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1}\tilde{A})^l, \]

    这里我们用 Neumann series 近似. 相应地, 有 Neumann Graph Convolution, 定义为:

    \[H = \tilde{A}_L XW := \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1}\tilde{A})^l XW, \]

    这里 \(W\) 是可训练的矩阵.

  • 假设特征 \(X\) 本身是带有噪声的, 且整体为如下形式:

    \[\tag{8} X = X^* + \eta, \]

    其中 \(X^*\) 是干净的特征, 而 \(\eta\) 为噪声.

  • 现在我们要分析 GNN 能够通过 \(W\) 来去除该噪声的能力:

    \[\min_{W} f(W) = \|\tilde{A}_SXW - Y\|_F^2; \]

  • 假设理想的 \(W^*\) 为:

    \[\tag{12} W_g* = \arg\min_{W} g(W) = \|\tilde{A}_SX^*W - Y\|_F^2. \]

  • 则问题就是, (8) 经过 \(k\) 步梯度下降得到的解 \(W_f^{(k)}\)\(W_g^*\) 的差距有多大:

    \[g(W_f^{(k)}) - g(W_g^*) \le ..., \]

    以及和什么有关.

  • 为了回答这个问题, 我们首先需要知道几个概念:

    1. High-order Graph Connectivity Factor:

      \[\tau = \max \: \tau_i \\ \tau_i = n\sum_{j=1}^n [\tilde{A}_L]_{ij}^2 / (1 - (\frac{\lambda}{\lambda + 1})^{L+1})^2. \]

      注意到 (需要假设 \(\tilde{A} = D^{-1}A\)),

      \[\sum_{j=1}^n [\tilde{A}_L]_{ij} = 1 - (\frac{\lambda}{\lambda + 1})^{L + 1}, \]

      此时容易得到:

      \[(1 - (\frac{\lambda}{\lambda + 1})^{L + 1})^2 / n \le \sum_{j=1}^n [\tilde{A}_L]_{ij}^2 \le (1 - (\frac{\lambda}{\lambda + 1})^{L + 1})^2, \]

      前者是 \(\tilde{A}_L\) 的每一行的值都一样, 此时分布最均匀, 也可以说此时图的连通性是最佳的, 而右边的上界则是每个结点孤立存在彼此均不联通. 所以 \(\tau \in [1, n]\) 反应了图的一个高阶连通性 (越小连通性越好).

    2. 一系列其它假设 (请回看原文);

  • 此时我们可以回答之前的问题, 它的结论是, 当以步长 \(\alpha = 1 / \kappa\) 迭代下降 \(k\) 次, 则有 \(1 - 1/d\) 的概率下式成立:

    \[g(W_f^{(k)}) - g(W_g^*) \le \mathcal{O}(\frac{1}{2ka}) + \mathcal{O}(\frac{\tau \log n}{n}). \]

    由此可以发现, 当 \(\tau\) 比较小, 梯度下降次数 \(k\) 比较多时候, GNN 就会具有一个较好的去噪效果.
    注: 其中 \(\kappa\) 是 Lipschitz 常数是出现在假设中的量.

AGSD

  • 由此, 本文提出了一种对抗鲁棒的方法:

    \[\min_F \|F - X\|_F^2 + \lambda \max_{L'} \text{ tr }(F^T L' F), \|L' - \tilde{L}\|_F \le \epsilon. \]

  • 它等价于:

    \[\rho(F) = \min_F \|F - X\|_F^2 + \lambda \text{ tr }(F^T \tilde{L} F) + \lambda \epsilon \text{ tr }(\frac{F^TFF^TF}{\|FF^T\|_F}); \]

  • 由此可得公式:

    \[F = (I + \lambda \tilde{L} + \lambda \epsilon \frac{FF^T}{\|FF^T\|_F^2})^{-1} X; \]

  • 作者用下式近似 (因为我们实际上希望 \(F\) 接近 \(X\)):

    \[H \approx \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1} (\tilde{A}_L - \epsilon \frac{XX^T}{\|XX^T\|_F^2})^{l} XW. \]

posted @ 2022-10-19 16:38  馒头and花卷  阅读(78)  评论(0编辑  收藏  举报