Understanding Convolution on Graphs via Energies

Giovanni F. D., Rowbottom J., Chamberlain B. P. and Bronstein M. M. Understanding Convolution on Graphs via Energies. TMLR, 2023.

从能量角度理解 GNN, 虽然角度不是最新的, 但是写得非常好.

符号说明

  • G=(V,E), 图;
  • n:=|V|, 结点个数;
  • EV×V, edge set;
  • A, adjacency matrix aij=1 if (i,j)E;
  • FRn×d, node features;
  • fiRd,iV, 行向量;
  • frRn,r=1,2,,d, 列向量;
  • vec(F)Rnd, stacking all columns;
  • DRn×n, 度矩阵;
  • A~:=D1/2AD1/2, normalized adjacency matrix;
  • L~:=ID1/2AD1/2, normalized graph Laplacian;

Dirichlet energy and Gradient-flow

  • Dirichlet energy 常常被用来衡量 node features 关于图 G 的平滑度:

    (1)εDir(F):=trace(FTΔF)=12(i,j)E(F)ij2,(F)ij:=fidjfidi.

  • 假设我们结点的特征 F(t) 与时刻 t 有关, 很自然地我们会希望监控它的一个变换情况:

    (2)F˙(t)=F(F(t)).

    特别地, 我们称上述的 evolution equation 为 gradient flow, 当

    F(F(t))=ε(F(t)).

    注: 这里包括之后 ε 都是 Fε 的缩写. 这里 ε 是某种 energy 形式, 比如上述的 Dirichlet energy.

  • 在这种情况下, 我们有:

    ε˙(F(t))=F˙Tε=(ε)Tε=ε2.

  • 故而可以发现, gradient flow 会导致 F(t) 朝着降低 energy ε (注意, 这里 energy 不限定是 Dirichlet energy) 的方向演变.

Heat equation

  • 让我们来看看当 energy 为 Dirichlet energy 的例子, 此时我们有

    (3)F˙(t)=εDir(F(t))=2L~F,

    由上述分析可知, 这种演变方式会促使 εDir0.

  • 当我们用 Euler 方法对上述 gradient flow 进行离散的时候, 有:

    F(t+Δt)=F(t)2ΔF(t)Δt,

    Δt=1/2, 便有

    F(t+12)=A~F(t),

    这就是最一般的 GCN (不带 weight matrix). 故而最一般的 GCN 会导致 over-smoothing.

注: 作者在讨论这一点的时候, (3) 是不带系数 2 的, 此时 (3) 就是个 heat equation. 不过我感觉这样顺下来逻辑会更加顺畅一点.

Gradient flows on graphs: th learnable case

  • 现在让我们看一下比较复杂的情况:

    Ft+1=Ft+σ(FtΩt+A~FtWtF0W~t).

  • 它实际上是如下 evolution equation 的离散化 (step size = 1):

    (4)F˙(t)=σ(F(t)Ω(t)+A~F(t)WtF(0)W~t)

  • 当且仅当 Ω,W 对称的时候, (4) 是一个 gradient flow, 所对应的 energy 为 (实际上应该整体乘上 1/2):

    (5)εθ(F)=ifi,ΩfiεΩexti,jA~ijfi,WfiεWpair+φ0(F,F(0))εφ0source

    其中

    φ0(F,F(0))=2ifi,W~fi(0).

  • 我们有:

    F˙(t)=12Fεθ(F(t))=F(t)(Ω+ΩT2)+AF(t)(W+WT2)F(0)W~.

    这也是为什么要求 Ω,W 对称的原因.

Attraction and repulsion

  • 让我们简化一下 (5), 将 φ0 移除, 并且定义:

    W=Θ+TΘ+ΘTΘ,

    由此, 我们可以得到

    εθ(F)=ifi,(ΩW)figraphindependent+12i,jEΘ+(F)ij2attraction12i,jEΘ(F)ij2repulsion.

  • 即, gradient flow, 分为了与 graph 无关的项, 以及 attraction 项和 repulsion 项, 前者使得结点从周围邻居吸收信息, 后者促使结点排斥邻居信息. 这两部分信息, 实际上决定了 GNN 是 smoothing 还是 sharpening 特征.

Low vs high frequency dominant dynamics: a new measure

  • 后面, 我们进一步假设 Ω=0, 主要讨论 attraction 和 repulsion 对于低频和高频信息的影响.

  • L~ 的特征值和特征向量为:

    {(λkR,ϕkRd)}k=0n1,

    且满足

    0=λ0λ1λn1.

  • 我们定义:

    • Low-Frequercy-Dominant (LFD):

    εDir(F(t))/F(t)2t0.

    • High-Frequercy-Dominant (HFD):

    εDir(F(t))/F(t)2tλn1.

  • 换言之, 我们认为当 F(t) 塌缩由 ϕ0 决定的时候, 就是主要由低频信号主导, 反之若塌缩到由 ϕn1 决定的时候, 就是主要由高频信号主导.

  • Theorem 4.3. 对于 F˙(t)=A~F(t)W, 令 μ0μ1μd1WRd×d 的特征值. 若

    • |μ0|(λn11)>μd1, 则对于几乎所有的 F(0), 该 evolution 是 HFD 的;
    • |μ0|(λn11)<μd1, 则对于几乎所有的 F(0), 该 evolution 是 LFD 的.
  • Theorem 4.3 告诉我们, 通过 W 可以控制整个过程是低频导向的或者高频导向的.

  • 证明这一点需要利用 Kronecker Product :

    AB=[a11Ba1nBam1BamnB]Rmp×nq,ARm×n,BRp×q.

  • 一些比较好的性质是:

    1. 向量化:

      vec(AXB)=(BTA)vec(X)

    2. 特征值 (假设 ARm×m,BRn×n 是对称的), 若 λiA,i=0,1,,m1A 的特征值, μjB,j=0,1,,n1B 的特征值, 则

      λiAμjB,i=0,1,,m1,j=0,1,,n1

      AB 的特征值.
      而且, 如 x,y 分别是 λiA,μjB 所对应的特征向量, 则

      yx

      也是 λiAμjB 所对应的特征向量.
  • 此时我们可以将 evolution equation 改写为:

    F˙(t)=A~F(t)Wvec(F˙(t))=(WTA~)vec(F(t)).

  • 此时 WTA~ 的特征值为:

    μi(1λj),i=0,1,,d1,j=0,1,,n1.

  • ψ,ϕ 分别表示 W,A~ 的特征向量, 我们可以把上述的方程拆解为:

    vec(F˙(t))=r=0d1=0n1cr,(t)ψrϕ,cr,(t):=vec(F(t)),ψrϕ.

  • 进一步我们可以求解得到它的显式表达式:

    vec(F(t))=r=0d1=0n1eμr(1λ)tcr,(0)ψrϕ,cr,(0):=vec(F(0)),ψrϕ.

  • 很显然, μi(1λj) 的最大值如下几种可能性:

    ρ:=maxr,μr(1λ)={μ0(1λn1)μ0<0,μ0(1λn1)>μd1,μd1else.

  • 如此一来, 我们有:

    vec(F(t))=eρt(r=0d1=0n1e[μr(1λ)ρ]tcr,(0)ψrϕ)r,:μr(1λ)=ρeμr(1λ)tcr,(0)ψrϕ.

  • vec(F(t))vec(F(t))2tNorm{ψrϕ}r,:(1λ)=ρ.

  • 实际上, 只有两种可能, 一种是 F(t) 的每一列往 ϕ0, 即低频靠近 (此时, μ0(1λn1)<μd1), 反之往高频信号 ϕn1 靠近.

代码

[official]

posted @   馒头and花卷  阅读(106)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2023-06-19 EulerNet Adaptive Feature Interaction Learning via Euler’s Formula for CTR Prediction
点击右上角即可分享
微信分享提示