Interpreting and Unifying Graph Neural Networks with An Optimization Framework
概
将 GNN 和 优化联系起来, 并提出了一个统一框架.
符号说明
- \(\mathcal{G} = (\mathcal{V, E})\), 图;
- \(n = |\mathcal{V}|\);
- \(X \in \mathbb{R}^{n \times f}\), features;
- \(A\), 邻接矩阵;
- \(D\), degree matrix;
- \(\tilde{A} = A + I, \tilde{D} = D + I\);
- \(\hat{\tilde{A}} = \tilde{D}^{-1/2} \tilde{A} \tilde{D}^{-1/2}\);
- \(\tilde{L} = I - \hat{\tilde{A}}\), normalized Laplacian.
统一的框架
-
大部分 GNN 的遵循如下的形式:
\[Z = \text{PROPAGATE}(X; \mathcal{G}; K) = \langle Trans(Agg\{\mathcal{G}, Z^{(k-1)}\}) \rangle_K, \]其中:
\[Z^{(0)} = X, \]\(Agg(\cdot)\) 代表 feature aggregation 过程, \(Trans(\cdot)\) 代表 feature transformation 过程 (通过激活函数和可学习的参数 \(W\)), 而 \(\langle \rangle_K\) 则是最后将不同层的输出耦合起来的一种方式, 最后得到输出特征 \(Z\).
-
实际上, 这些 GNN 的目的无非是:
\[O = \min_Z \{\underbrace{\zeta \|F_1 Z - F_1 H\|_F^2}_{O_{fit}} + \underbrace{\xi tr(Z^T\tilde{L}Z)}_{O_{reg}} \}. \]即:
1. 通过 \(O_{fit}\) 和不同的 graph convolutional kernels \(F_1, F_2\) 从信号 \(H\) 中提取有用的信息;
2. 该信息需要满足约束条件 \(O_{reg}\). -
下面是作者总结的不同的 GNN 方法的对应结果:
Graph-LF/HF
-
作者认为 \(H\) 不可避免地包含噪声和不确定的信息, 所以希望人为设计低频, 高频 filters 来提取低频和高频信息:
-
为了提取低频信息, 作者令
\[F_1 = F_2 = (\mu I + (1 - \mu) \hat{\tilde{A}})^{-1/2}, \: \mu \in [1/2, 1] \]注: \(I\) 囊括全部信息, 而 \(\hat{\tilde{A}}\) 强调低频信息. 此外令
\[\zeta = 1, \xi = 1 / \alpha - 1, \alpha \in (0, 2/3) \]以保证能用迭代逼近:
\[Z^{(k+1)} = \frac{1 + \alpha \mu - 2 \alpha}{1 + \alpha \mu - \alpha} \hat{\tilde{A}} Z^{(k)} + \frac{\alpha \mu}{1 + \alpha \mu - \alpha} H + \frac{\alpha - \alpha \mu}{1 + \alpha \mu - \alpha} \hat{\tilde{A}}H. \] -
为了提取高频信息, 作者令
\[F_1 = F_2 = (I + \beta \tilde{L})^{-1/2}, \: \beta \in (0, +\infty). \]这里 \(\tilde{L}\) 抓住高频信息. 此外令
\[\zeta = 1, \xi = 1/\alpha - 1, \alpha \in (0, 1]. \]可以通过如下方式迭代逼近:
\[Z^{(k+1)} = \frac{\alpha \beta - \alpha + 1}{\alpha \beta + 1} \hat{\tilde{A}} Z^{(k)} + \frac{\alpha}{1 + \alpha \beta} H + \frac{\alpha \beta}{1 + \alpha \beta} \tilde{L}H. \] -
这里 \(H = f_{\theta}(X)\), 是在原始特征的基础上通过 MLP \(f_{\theta}(\cdot)\) 得到的非线性变换.
注: 作者是先给出显式解再给出迭代解的, 具体请回看论文.