Fork me on GitHub

SEMI-SUPERVISEDCLASSIFICATION WITHGRAPHCONVOLUTIONALNETWORKS----论文理解

一、回答四个必要问题

1、What did authors try to accomplish?

  • 提出一个可扩展的半监督图卷积神经网络
  • 第一:作者介绍了一个简单且行为规范的分层传播规则,该规则可以直接在图上运行。同时我们推导出如何从频谱卷积的一阶近似中使之激活。(快速卷积规则)
  • 第二:作者介绍了这个规则如何用于可扩展的图半监督分类学习

2、What were the key elements of the approach?

  •  快速卷积规则的数学推导
  • 半监督学习的传播过程

3、What can you use yourself?

 使用其快速卷积的理论基础,利用该架构实现图上的半监督学习。

4、What reference do you want to follow?

None。

二、文章结构

1.Introduction

  • 提出新的Loss公式
  • 介绍文章主要工作,一是引入新的分层传播规则,二是该种规则如何运用于半监督分类学习的图网络中

2.Fast Approximate Convolutions on Graphs(图上的快速逼近卷积方法)

  • 图上的传播规则

\begin{equation}
H^{(l+1)}=\sigma(\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}H^{l}W^{l}).
\end{equation}

其中$\sigma$代表激活函数,例如RELU;$\widetilde{A}$是邻接矩阵加上自连接(self connection);$\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}$代表归一化的拉普拉斯变换 ,$\H^{l}$为特征矩阵,$W^{l}$为某层可训练的参数

2.1 Spectral Graph Convolutions(频域图卷积)

  • 定义卷积操作

\begin{equation}
g_{\theta} \star x=U g_{\theta}U^{T}x
\end{equation}

 其中$U$是归一化后拉普拉斯矩阵的特征向量;

\begin{equation}
L=I_{N}-\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}=U\Lambda U^{T}
\end{equation}

可以将$g_{\theta}$理解为$L$的特征值函数。由于对特征值矩阵的计算代价较高($O(N^{2})$),而且在图比较大的时候计算$L$也比较expensive.为了解决这个问题$g_{\theta}(\Lambda)$可以被Chebyshev(切比雪夫)多项式的K阶展开取代。

\begin{equation}
g_{\theta^{'}}(\Lambda)\approx\sum_{k=0}^K\theta_{k}^{'}T_{k}(\widetilde{\Lambda})x
\end{equation}

上述$\widetilde{\Lambda}=\frac{2}{\lambda_{max}}\Lambda-I_{N}$,$\lambda_{max}$代表$L$的最大特征值。$\theta_{k}^{'}$是切比雪夫系数的向量,切比雪夫不等式的递归定义如下:

\begin{equation}
T_{k}(x)=2x T_{k-1}(x)-T_{k-2}(x),with\quad T_0(x)=1\quad and \quad T_1(x)=x
\end{equation}

由第一个定义卷积的公式可以得出:

\begin{equation}
g_{\theta^{'}}\star x\approx\sum_{k=0}^{K}\theta_{k}^{'}T_{k}(\widetilde{L})x \quad with\quad \widetilde{L}=\frac{2}{\lambda_{max}}L-I_{N}
\end{equation}

此为1606.09375-Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering文章中定义的卷积。

证明过程:

\begin{aligned}g_\theta * x & = Ug_\theta U^Tx \\& = U g_{\theta}(Λ) U^Tx \\& =U (\sum^{K}_{k=0} \theta_kT_K(\tilde Λ)) U^Tx \\& = (\sum^{K}_{k=0} \theta_kT_K(U\tilde Λ U^T)) x \\& = \sum^{K}_{k=0} \theta_k T_K(\tilde L) x \qquad \end{aligned}

2.2layer-wise Linear Model(分层线性模型)

  • 引入一阶近似ChebNet。假设K=1,$\lambda_{max}=2$,则卷积公式简化近似为:

\begin{equation}
x\ast g_\theta=\Theta_0 x-\Theta_1D^{-\frac{1}{2}}AD^{-\frac{1}{2}}x
\end{equation}

假设$\Theta=\Theta_0=-\Theta_1$:

\begin{equation}
x\ast g_\theta=\Theta(I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x
\end{equation}

又因为$I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$是范围$[0,2]$的特征值,在训练过程中会出现梯度爆炸和消失的情况,所以引入一个$renormalization \quad trick$:

\begin{equation*}
I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}\stackrel{\widetilde{A}=A+I_N}{\longrightarrow}{\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}}
\end{equation*}

其中$\widetilde{A}=A+I_N,\widetilde{D_{ii}}=\sum_j\widetilde{A}_{ij}$,即图中加上自连接。

再加上激活函数即推导出公式(1)的传播规则:

$H^{(l+1)}=\sigma(\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}H^{l}W^{l}).$

可以推广这个特征映射公式到具有C个输入通道(即每个结点的C维特征向量)的信号$X\in\mathbb{R}^{N \times C}$和F个滤波器:

\begin{equation*}
Z={\widetilde{D}^{-\frac{1}{2}}\widetilde{A}\widetilde{D}^{-\frac{1}{2}}}X\Theta
\end{equation*}

  其中$\Theta\in\mathbb{R}^{C \times F}$是滤波器的参数矩阵,$Z\in\mathbb{R}^{N \times F}$是一次卷积输出的矩阵

posted @ 2020-09-25 18:49  Lurchy  阅读(322)  评论(0编辑  收藏  举报