Interpreting and Unifying Graph Neural Networks with An Optimization Framework

Zhu M., Wang X., Shi C., Ji H. and Cui P. Interpreting and unifying graph neural networks with an optimization framework. In International World Wide Web Conference (WWW), 2021.

将 GNN 和 优化联系起来, 并提出了一个统一框架.

符号说明

  • \(\mathcal{G} = (\mathcal{V, E})\), 图;
  • \(n = |\mathcal{V}|\);
  • \(X \in \mathbb{R}^{n \times f}\), features;
  • \(A\), 邻接矩阵;
  • \(D\), degree matrix;
  • \(\tilde{A} = A + I, \tilde{D} = D + I\);
  • \(\hat{\tilde{A}} = \tilde{D}^{-1/2} \tilde{A} \tilde{D}^{-1/2}\);
  • \(\tilde{L} = I - \hat{\tilde{A}}\), normalized Laplacian.

统一的框架

  • 大部分 GNN 的遵循如下的形式:

    \[Z = \text{PROPAGATE}(X; \mathcal{G}; K) = \langle Trans(Agg\{\mathcal{G}, Z^{(k-1)}\}) \rangle_K, \]

    其中:

    \[Z^{(0)} = X, \]

    \(Agg(\cdot)\) 代表 feature aggregation 过程, \(Trans(\cdot)\) 代表 feature transformation 过程 (通过激活函数和可学习的参数 \(W\)), 而 \(\langle \rangle_K\) 则是最后将不同层的输出耦合起来的一种方式, 最后得到输出特征 \(Z\).

  • 实际上, 这些 GNN 的目的无非是:

    \[O = \min_Z \{\underbrace{\zeta \|F_1 Z - F_1 H\|_F^2}_{O_{fit}} + \underbrace{\xi tr(Z^T\tilde{L}Z)}_{O_{reg}} \}. \]

    即:
    1. 通过 \(O_{fit}\) 和不同的 graph convolutional kernels \(F_1, F_2\) 从信号 \(H\) 中提取有用的信息;
    2. 该信息需要满足约束条件 \(O_{reg}\).

  • 下面是作者总结的不同的 GNN 方法的对应结果:

Graph-LF/HF

  • 作者认为 \(H\) 不可避免地包含噪声和不确定的信息, 所以希望人为设计低频, 高频 filters 来提取低频和高频信息:

  • 为了提取低频信息, 作者令

    \[F_1 = F_2 = (\mu I + (1 - \mu) \hat{\tilde{A}})^{-1/2}, \: \mu \in [1/2, 1] \]

    注: \(I\) 囊括全部信息, 而 \(\hat{\tilde{A}}\) 强调低频信息. 此外令

    \[\zeta = 1, \xi = 1 / \alpha - 1, \alpha \in (0, 2/3) \]

    以保证能用迭代逼近:

    \[Z^{(k+1)} = \frac{1 + \alpha \mu - 2 \alpha}{1 + \alpha \mu - \alpha} \hat{\tilde{A}} Z^{(k)} + \frac{\alpha \mu}{1 + \alpha \mu - \alpha} H + \frac{\alpha - \alpha \mu}{1 + \alpha \mu - \alpha} \hat{\tilde{A}}H. \]

  • 为了提取高频信息, 作者令

    \[F_1 = F_2 = (I + \beta \tilde{L})^{-1/2}, \: \beta \in (0, +\infty). \]

    这里 \(\tilde{L}\) 抓住高频信息. 此外令

    \[\zeta = 1, \xi = 1/\alpha - 1, \alpha \in (0, 1]. \]

    可以通过如下方式迭代逼近:

    \[Z^{(k+1)} = \frac{\alpha \beta - \alpha + 1}{\alpha \beta + 1} \hat{\tilde{A}} Z^{(k)} + \frac{\alpha}{1 + \alpha \beta} H + \frac{\alpha \beta}{1 + \alpha \beta} \tilde{L}H. \]

  • 这里 \(H = f_{\theta}(X)\), 是在原始特征的基础上通过 MLP \(f_{\theta}(\cdot)\) 得到的非线性变换.

注: 作者是先给出显式解再给出迭代解的, 具体请回看论文.

posted @ 2022-10-18 10:38  馒头and花卷  阅读(63)  评论(0编辑  收藏  举报