How Powerful is Implicit Denoising in Graph Neural Networks

概
符号说明
GNN 的去噪能力
AGSD

Liu S., Ying R., Dong H., Lin L., Chen J., Wu D. How powerful is implicit denoising in graph neural networks? arXiv preprint arXiv: 2209.14514, 2022.

概

这篇文章理论分析了 GNN 去噪的内在机制.

符号说明

\(\mathcal{G} = (\mathcal{V}, \mathcal{F})\), 无向图;
\(|\mathcal{V}| = n\);
\(A \in \{0, 1\}^{n \times n}\), 邻接矩阵;
\(\mathcal{N}_i = \{v_i| A_{ij} = 1\}\), 结点 \(v_i\) 的一阶邻居;
\(D, D_{ii} = \sum_j A_{ij}\);
\(\tilde{A} = D^{-1/2} A D^{-1/2}\);
\(\tilde{L} = I - \tilde{A}\);
\(X \in \mathbb{R}^{n \times d}\), feature matrix;
\(Y \in \{0, 1\}^{n \times c}\), label matrix, ont-hot;

GNN 的去噪能力

现有的 GNN 可以近似等价于如下的一个优化问题:

\[\tag{1} q(F) = \min_F \|F - X\|_F^2 + \lambda \text{ tr }(F^T \tilde{L}F); \]
通过 \(\nabla q(F) = 0\), 可以得到如下的一个显式解:

\[F = (I + \lambda \tilde{L})^{-1}X \approx \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1}\tilde{A})^l, \]
这里我们用 Neumann series 近似. 相应地, 有 Neumann Graph Convolution, 定义为:

\[H = \tilde{A}_L XW := \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1}\tilde{A})^l XW, \]
这里 \(W\) 是可训练的矩阵.
假设特征 \(X\) 本身是带有噪声的, 且整体为如下形式:

\[\tag{8} X = X^* + \eta, \]
其中 \(X^*\) 是干净的特征, 而 \(\eta\) 为噪声.
现在我们要分析 GNN 能够通过 \(W\) 来去除该噪声的能力:

\[\min_{W} f(W) = \|\tilde{A}_SXW - Y\|_F^2; \]
假设理想的 \(W^*\) 为:

\[\tag{12} W_g* = \arg\min_{W} g(W) = \|\tilde{A}_SX^*W - Y\|_F^2. \]
则问题就是, (8) 经过 \(k\) 步梯度下降得到的解 \(W_f^{(k)}\) 和 \(W_g^*\) 的差距有多大:

\[g(W_f^{(k)}) - g(W_g^*) \le ..., \]
以及和什么有关.
为了回答这个问题, 我们首先需要知道几个概念:
1. High-order Graph Connectivity Factor:
  
  \[\tau = \max \: \tau_i \\ \tau_i = n\sum_{j=1}^n [\tilde{A}_L]_{ij}^2 / (1 - (\frac{\lambda}{\lambda + 1})^{L+1})^2. \]
  注意到 (需要假设 \(\tilde{A} = D^{-1}A\)),
  
  \[\sum_{j=1}^n [\tilde{A}_L]_{ij} = 1 - (\frac{\lambda}{\lambda + 1})^{L + 1}, \]
  此时容易得到:
  
  \[(1 - (\frac{\lambda}{\lambda + 1})^{L + 1})^2 / n \le \sum_{j=1}^n [\tilde{A}_L]_{ij}^2 \le (1 - (\frac{\lambda}{\lambda + 1})^{L + 1})^2, \]
  前者是 \(\tilde{A}_L\) 的每一行的值都一样, 此时分布最均匀, 也可以说此时图的连通性是最佳的, 而右边的上界则是每个结点孤立存在彼此均不联通. 所以 \(\tau \in [1, n]\) 反应了图的一个高阶连通性 (越小连通性越好).
2. 一系列其它假设 (请回看原文);
此时我们可以回答之前的问题, 它的结论是, 当以步长 \(\alpha = 1 / \kappa\) 迭代下降 \(k\) 次, 则有 \(1 - 1/d\) 的概率下式成立:

\[g(W_f^{(k)}) - g(W_g^*) \le \mathcal{O}(\frac{1}{2ka}) + \mathcal{O}(\frac{\tau \log n}{n}). \]
由此可以发现, 当 \(\tau\) 比较小, 梯度下降次数 \(k\) 比较多时候, GNN 就会具有一个较好的去噪效果.
注: 其中 \(\kappa\) 是 Lipschitz 常数是出现在假设中的量.

AGSD

由此, 本文提出了一种对抗鲁棒的方法:

\[\min_F \|F - X\|_F^2 + \lambda \max_{L'} \text{ tr }(F^T L' F), \|L' - \tilde{L}\|_F \le \epsilon. \]
它等价于:

\[\rho(F) = \min_F \|F - X\|_F^2 + \lambda \text{ tr }(F^T \tilde{L} F) + \lambda \epsilon \text{ tr }(\frac{F^TFF^TF}{\|FF^T\|_F}); \]
由此可得公式:

\[F = (I + \lambda \tilde{L} + \lambda \epsilon \frac{FF^T}{\|FF^T\|_F^2})^{-1} X; \]
作者用下式近似 (因为我们实际上希望 \(F\) 接近 \(X\)):

\[H \approx \frac{1}{\lambda + 1} \sum_{l=0}^L (\frac{\lambda}{\lambda + 1} (\tilde{A}_L - \epsilon \frac{XX^T}{\|XX^T\|_F^2})^{l} XW. \]

posted @ 2022-10-19 16:38 馒头and花卷阅读(78) 评论(0) 编辑收藏举报

刷新页面返回顶部

馒头and花卷

How Powerful is Implicit Denoising in Graph Neural Networks

概

符号说明

GNN 的去噪能力

AGSD

公告