How Powerful is Implicit Denoising in Graph Neural Networks
概
这篇文章理论分析了 GNN 去噪的内在机制.
符号说明
- \(\mathcal{G} = (\mathcal{V}, \mathcal{F})\), 无向图;
- \(|\mathcal{V}| = n\);
- \(A \in \{0, 1\}^{n \times n}\), 邻接矩阵;
- \(\mathcal{N}_i = \{v_i| A_{ij} = 1\}\), 结点 \(v_i\) 的一阶邻居;
- \(D, D_{ii} = \sum_j A_{ij}\);
- \(\tilde{A} = D^{-1/2} A D^{-1/2}\);
- \(\tilde{L} = I - \tilde{A}\);
- \(X \in \mathbb{R}^{n \times d}\), feature matrix;
- \(Y \in \{0, 1\}^{n \times c}\), label matrix, ont-hot;
GNN 的去噪能力
-
现有的 GNN 可以近似等价于如下的一个优化问题:
\[\tag{1} q(F) = \min_F \|F - X\|_F^2 + \lambda \text{ tr }(F^T \tilde{L}F); \] -
通过 \(\nabla q(F) = 0\), 可以得到如下的一个显式解:
\[F = (I + \lambda \tilde{L})^{-1}X \approx \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1}\tilde{A})^l, \]这里我们用 Neumann series 近似. 相应地, 有 Neumann Graph Convolution, 定义为:
\[H = \tilde{A}_L XW := \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1}\tilde{A})^l XW, \]这里 \(W\) 是可训练的矩阵.
-
假设特征 \(X\) 本身是带有噪声的, 且整体为如下形式:
\[\tag{8} X = X^* + \eta, \]其中 \(X^*\) 是干净的特征, 而 \(\eta\) 为噪声.
-
现在我们要分析 GNN 能够通过 \(W\) 来去除该噪声的能力:
\[\min_{W} f(W) = \|\tilde{A}_SXW - Y\|_F^2; \] -
假设理想的 \(W^*\) 为:
\[\tag{12} W_g* = \arg\min_{W} g(W) = \|\tilde{A}_SX^*W - Y\|_F^2. \] -
则问题就是, (8) 经过 \(k\) 步梯度下降得到的解 \(W_f^{(k)}\) 和 \(W_g^*\) 的差距有多大:
\[g(W_f^{(k)}) - g(W_g^*) \le ..., \]以及和什么有关.
-
为了回答这个问题, 我们首先需要知道几个概念:
-
High-order Graph Connectivity Factor:
\[\tau = \max \: \tau_i \\ \tau_i = n\sum_{j=1}^n [\tilde{A}_L]_{ij}^2 / (1 - (\frac{\lambda}{\lambda + 1})^{L+1})^2. \]注意到 (需要假设 \(\tilde{A} = D^{-1}A\)),
\[\sum_{j=1}^n [\tilde{A}_L]_{ij} = 1 - (\frac{\lambda}{\lambda + 1})^{L + 1}, \]此时容易得到:
\[(1 - (\frac{\lambda}{\lambda + 1})^{L + 1})^2 / n \le \sum_{j=1}^n [\tilde{A}_L]_{ij}^2 \le (1 - (\frac{\lambda}{\lambda + 1})^{L + 1})^2, \]前者是 \(\tilde{A}_L\) 的每一行的值都一样, 此时分布最均匀, 也可以说此时图的连通性是最佳的, 而右边的上界则是每个结点孤立存在彼此均不联通. 所以 \(\tau \in [1, n]\) 反应了图的一个高阶连通性 (越小连通性越好).
-
一系列其它假设 (请回看原文);
-
-
此时我们可以回答之前的问题, 它的结论是, 当以步长 \(\alpha = 1 / \kappa\) 迭代下降 \(k\) 次, 则有 \(1 - 1/d\) 的概率下式成立:
\[g(W_f^{(k)}) - g(W_g^*) \le \mathcal{O}(\frac{1}{2ka}) + \mathcal{O}(\frac{\tau \log n}{n}). \]由此可以发现, 当 \(\tau\) 比较小, 梯度下降次数 \(k\) 比较多时候, GNN 就会具有一个较好的去噪效果.
注: 其中 \(\kappa\) 是 Lipschitz 常数是出现在假设中的量.
AGSD
-
由此, 本文提出了一种对抗鲁棒的方法:
\[\min_F \|F - X\|_F^2 + \lambda \max_{L'} \text{ tr }(F^T L' F), \|L' - \tilde{L}\|_F \le \epsilon. \] -
它等价于:
\[\rho(F) = \min_F \|F - X\|_F^2 + \lambda \text{ tr }(F^T \tilde{L} F) + \lambda \epsilon \text{ tr }(\frac{F^TFF^TF}{\|FF^T\|_F}); \] -
由此可得公式:
\[F = (I + \lambda \tilde{L} + \lambda \epsilon \frac{FF^T}{\|FF^T\|_F^2})^{-1} X; \] -
作者用下式近似 (因为我们实际上希望 \(F\) 接近 \(X\)):
\[H \approx \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1} (\tilde{A}_L - \epsilon \frac{XX^T}{\|XX^T\|_F^2})^{l} XW. \]