Giovanni F. D., Rowbottom J., Chamberlain B. P. and Bronstein M. M. Understanding Convolution on Graphs via Energies. TMLR, 2023.
概
从能量角度理解 GNN, 虽然角度不是最新的, 但是写得非常好.
符号说明
- G=(V,E), 图;
- n:=|V|, 结点个数;
- E⊂V×V, edge set;
- A, adjacency matrix aij=1 if (i,j)∈E;
- F∈Rn×d, node features;
- fi∈Rd,i∈V, 行向量;
- fr∈Rn,r=1,2,…,d, 列向量;
- vec(F)∈Rnd, stacking all columns;
- D∈Rn×n, 度矩阵;
- ~A:=D−1/2AD−1/2, normalized adjacency matrix;
- ~L:=I−D−1/2AD−1/2, normalized graph Laplacian;
Dirichlet energy and Gradient-flow
-
Dirichlet energy 常常被用来衡量 node features 关于图 G 的平滑度:
εDir(F):=trace(FTΔF)=12∑(i,j)∈E∥(∇F)ij∥2,(∇F)ij:=fi√dj−fi√di.(1)
-
假设我们结点的特征 F(t) 与时刻 t 有关, 很自然地我们会希望监控它的一个变换情况:
˙F(t)=F(F(t)).(2)
特别地, 我们称上述的 evolution equation 为 gradient flow, 当
F(F(t))=−∇ε(F(t)).
注: 这里包括之后 ∇ε 都是 ∇Fε 的缩写. 这里 ε 是某种 energy 形式, 比如上述的 Dirichlet energy.
-
在这种情况下, 我们有:
˙ε(F(t))=˙FT∇ε=(−∇ε)T∇ε=−∥∇ε∥2.
-
故而可以发现, gradient flow 会导致 F(t) 朝着降低 energy ε (注意, 这里 energy 不限定是 Dirichlet energy) 的方向演变.
Heat equation
-
让我们来看看当 energy 为 Dirichlet energy 的例子, 此时我们有
˙F(t)=−∇εDir(F(t))=−2~LF,(3)
由上述分析可知, 这种演变方式会促使 εDir→0.
-
当我们用 Euler 方法对上述 gradient flow 进行离散的时候, 有:
F(t+Δt)=F(t)−2ΔF(t)Δt,
取 Δt=1/2, 便有
F(t+12)=~AF(t),
这就是最一般的 GCN (不带 weight matrix). 故而最一般的 GCN 会导致 over-smoothing.
注: 作者在讨论这一点的时候, (3) 是不带系数 2 的, 此时 (3) 就是个 heat equation. 不过我感觉这样顺下来逻辑会更加顺畅一点.
Gradient flows on graphs: th learnable case
-
现在让我们看一下比较复杂的情况:
Ft+1=Ft+σ(−FtΩt+~AFtWt−F0~Wt).
-
它实际上是如下 evolution equation 的离散化 (step size = 1):
˙F(t)=σ(−F(t)Ω(t)+~AF(t)Wt−F(0)~Wt)(4)
-
当且仅当 Ω,W 对称的时候, (4) 是一个 gradient flow, 所对应的 energy 为 (实际上应该整体乘上 1/2):
εθ(F)=∑i⟨fi,Ωfi⟩εextΩ−∑i,j~Aij⟨fi,Wfi⟩εpairW+φ0(F,F(0))εsourceφ0(5)
其中
φ0(F,F(0))=2∑i⟨fi,~Wfi(0)⟩.
-
我们有:
˙F(t)=−12∇Fεθ(F(t))=−F(t)(Ω+ΩT2)+AF(t)(W+WT2)−F(0)~W.
这也是为什么要求 Ω,W 对称的原因.
Attraction and repulsion
-
让我们简化一下 (5), 将 φ0 移除, 并且定义:
W=ΘT+Θ+−ΘT−Θ−,
由此, 我们可以得到
εθ(F)=∑i⟨fi,(Ω−W)fi⟩graph−independent+12∑i,j∈E∥Θ+(∇F)ij∥2attraction−12∑i,j∈E∥Θ−(∇F)ij∥2repulsion.
-
即, gradient flow, 分为了与 graph 无关的项, 以及 attraction 项和 repulsion 项, 前者使得结点从周围邻居吸收信息, 后者促使结点排斥邻居信息. 这两部分信息, 实际上决定了 GNN 是 smoothing 还是 sharpening 特征.
Low vs high frequency dominant dynamics: a new measure
-
后面, 我们进一步假设 Ω=0, 主要讨论 attraction 和 repulsion 对于低频和高频信息的影响.
-
令 ~L 的特征值和特征向量为:
{(λk∈R,ϕk∈Rd)}n−1k=0,
且满足
0=λ0≤λ1≤⋯≤λn−1.
-
我们定义:
- Low-Frequercy-Dominant (LFD):
εDir(F(t))/∥F(t)∥2t→∞⟶0.
- High-Frequercy-Dominant (HFD):
εDir(F(t))/∥F(t)∥2t→∞⟶λn−1.
-
换言之, 我们认为当 F(t) 塌缩由 ϕ0 决定的时候, 就是主要由低频信号主导, 反之若塌缩到由 ϕn−1 决定的时候, 就是主要由高频信号主导.
-
Theorem 4.3. 对于 ˙F(t)=~AF(t)W, 令 μ0≤μ1≤…≤μd−1 为 W∈Rd×d 的特征值. 若
- |μ0|(λn−1−1)>μd−1, 则对于几乎所有的 F(0), 该 evolution 是 HFD 的;
- |μ0|(λn−1−1)<μd−1, 则对于几乎所有的 F(0), 该 evolution 是 LFD 的.
-
Theorem 4.3 告诉我们, 通过 W 可以控制整个过程是低频导向的或者高频导向的.
-
证明这一点需要利用 Kronecker Product ⊗:
A⊗B=⎡⎢
⎢⎣a11B⋯a1nB⋮⋱⋮am1B⋯amnB⎤⎥
⎥⎦∈Rmp×nq,A∈Rm×n,B∈Rp×q.
-
一些比较好的性质是:
- 向量化:
vec(AXB)=(BT⊗A)vec(X)
- 特征值 (假设 A∈Rm×m,B∈Rn×n 是对称的), 若 λAi,i=0,1,…,m−1 是 A 的特征值, μBj,j=0,1,…,n−1 是 B 的特征值, 则
λAi⋅μBj,i=0,1,…,m−1,j=0,1,…,n−1
是 A⊗B 的特征值.
而且, 如 x,y 分别是 λAi,μBj 所对应的特征向量, 则y⊗x
也是 λAi⋅μBj 所对应的特征向量.
-
此时我们可以将 evolution equation 改写为:
˙F(t)=~AF(t)W⇒vec(˙F(t))=(WT⊗~A)vec(F(t)).
-
此时 WT⊗~A 的特征值为:
μi(1−λj),i=0,1,…,d−1,j=0,1,…,n−1.
-
用 ψ,ϕ 分别表示 W,~A 的特征向量, 我们可以把上述的方程拆解为:
vec(˙F(t))=d−1∑r=0n−1∑ℓ=0cr,ℓ(t)ψr⊗ϕℓ,cr,ℓ(t):=⟨vec(F(t)),ψr⊗ϕℓ⟩.
-
进一步我们可以求解得到它的显式表达式:
vec(F(t))=d−1∑r=0n−1∑ℓ=0eμr(1−λℓ)tcr,ℓ(0)ψr⊗ϕℓ,cr,ℓ(0):=⟨vec(F(0)),ψr⊗ϕℓ⟩.
-
很显然, μi(1−λj) 的最大值如下几种可能性:
ρ:=maxr,ℓμr(1−λℓ)={μ0(1−λn−1)μ0<0,μ0(1−λn−1)>μd−1,μd−1else.
-
如此一来, 我们有:
vec(F(t))=eρt(∑d−1r=0∑n−1ℓ=0e[μr(1−λℓ)−ρ]tcr,ℓ(0)ψr⊗ϕℓ)≈∑r,ℓ:μr(1−λℓ)=ρeμr(1−λℓ)tcr,ℓ(0)ψr⊗ϕℓ.
-
故
vec(F(t))∥vec(F(t))∥2t→∞⟶Norm{ψr⊗ϕℓ}r,ℓ:(1−λℓ)=ρ.
-
实际上, 只有两种可能, 一种是 F(t) 的每一列往 ϕ0, 即低频靠近 (此时, μ0(1−λn−1)<μd−1), 反之往高频信号 ϕn−1 靠近.
代码
[official]
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
2023-06-19 EulerNet Adaptive Feature Interaction Learning via Euler’s Formula for CTR Prediction