LightGODE论文阅读笔记
Do We Really Need Graph Convolution During Training? Light Post-Training Graph-ODE for Efficient Recommendation论文阅读笔记
Abstract
现存的问题:
图卷积网络(GCN)在训练推荐系统(RecSys)中的效率和可扩展性一直是令人担忧的问题,阻碍了它们在现实世界中的应用。
提出方法:
本文对训练阶段图卷积的必要性进行了批判性研究,并介绍了一种创新的替代方法:轻型后训练图常微分方程(LightGODE)。我们的调查显示,GCN 的优势在测试阶段比在训练阶段更明显。受此启发,LightGODE 采用了一种新颖的训练后图卷积方法,该方法绕过了 GCNs 的计算密集型消息传递,并采用了非参数连续图常微分方程 (ODE) 对节点表示进行动态建模。这种方法大大缩短了训练时间,同时实现了细粒度的训练后图卷积,避免了原始训练嵌入空间的失真,即嵌入差异问题。我们在几个不同规模的真实数据集上验证了我们的模型,结果表明LightGODE不仅在效率和效果上优于基于GCN的模型,而且还显著缓解了通常与更深的图卷积层相关的嵌入差异问题。
Introduction
尽管在基于图的推荐方面取得了令人鼓舞的进展,但这些方法在本质上受到了效率和可扩展性问题的挑战。在现有的基于图的推荐培训范例中,图卷积的信息传递计算密集,这本质上引发了这些问题。在大规模图的实际应用中,这些问题会进一步加剧,因为时间/计算复杂度会随着用户和项目数量的增加而呈指数增长。
最近的研究表明,简单的 MLP 作为图模型的初始化,或通过对比学习、知识提炼进行训练,与 GCN 模型相比,只要它们共享相等的权重空间,就能表现出有竞争力的性能。考虑到在矩阵因式分解(MF)权重的情况下,人们可以轻易地推导出对应的轻图模型,我们自然而然地提出了一个有意义的重要问题: 我们真的需要在推荐训练过程中进行计算量巨大的图卷积吗?
为了解决这个问题,我们首先进行了一项初步实验,研究图卷积的作用。结果显示,图卷积在测试中的作用比在训练中更关键。值得注意的是,如果在训练后实施类似的轻量级图卷积,MF 模型就能与 GCN 的性能相媲美。为了从训练的角度揭示其根本原因,我们研究了使用 MF 和 LightGCN 模型进行训练时的监督对齐力,发现在两种不同的训练范式中,正用户-项目对的对齐属性是近似的。这促使我们进一步探索 MF 和 GCN 模型的训练过程,并得出结论:基于 GCN 的训练本质上是 MF 训练的度加权形式。
直观地说,从深度优先搜索(DFS)的角度来看,通过遵循成对排列力,MF 训练产生的效果类似于基于广度优先搜索(BFS)的信息聚合的 GCN 训练。考虑到这些过程的时间需求,我们认为在训练过程中可能不需要图卷积。然而,目前的图卷积方法并不理想,因为我们根据经验发现,层数的增加会显著扩大卷积前后的嵌入差异,即嵌入差异(Embedding Discrepancy)。
假设MF模型经过良好的训练,任何训练后的操作都不应该显著地改变原始的嵌入空间,而现有的具有高嵌入差异的卷积策略可能会潜在地抵消高阶信息的好处。此外,现有的粗粒度图卷积方法由于其离散特性,无法找到最优的卷积深度。这促使我们寻找一种更细粒度的方法来集成高阶的用户-项目交互,同时避免在训练过程中计算密集的信息传递。
在本文中,我们介绍了一种基于图的新方法--Light Post-Training Graph-ODE (LightGODE),该方法专为精细高效的大规模 RecSys 而设计。具体来说,我们首先提出了一种新颖的训练后图卷积(PTGC)范式,通过跳过最耗时的操作(包括邻接矩阵归一化和逐层图卷积)来显著提高训练效率,使训练过程与传统的 MF 模型一样高效。为了解决嵌入差异问题,我们开发了一种非参数图卷积,在信息更新过程中加入了自循环。这种直接的操作将优先考虑前面的层,从而隐含地赋予浅层更大的重要性,尤其是图卷积过程中的初始嵌入,这有助于最大限度地减少图卷积前后嵌入空间之间的差异。因此,它有助于减少嵌入空间之间的分布差异。在此基础上,我们提出了由离散无参数图卷积衍生的连续图常微分方程。连续性具有以下几个优点。
首先,它描述了用户/项目在双元图中的连续动态表示,使传统的图卷积成为无缝层向嵌入变换的特定离散化。此外,它还能实现精确和细粒度的图卷积,以实现与连续时间值的最佳权衡,从而在平衡嵌入差异的同时捕捉高阶信息。
本文的主要贡献如下:
- 据我们所知,我们是第一个对基于图的推荐中的长期权威--图卷积的必要性--提出质疑的人,而且我们通过经验和分析揭示了它在测试而非训练中的决定性作用。
- 我们开发了一种新颖的训练后图卷积框架,以实现极其高效的训练,并设计了一种具有自循环功能的非参数 GCN,从而缓解了嵌入差异问题。
- 最初,我们提出了一种连续图常微分方程(LightGODE),它可以对节点表示进行动态建模,实现高阶信息和嵌入差异的最优权衡。
Method
在本节中,我们提出了后训练图卷积框架,包括预训练用户/项目嵌入,以实现极其高效的图推荐。为了平衡高阶信息的整合和嵌入差异的风险,我们设计了一种带有自循环的非参数图卷积。在此基础上,我们提出了 LightGODE--一种基于常微分方程的连续后训练图卷积,旨在实现最佳权衡。最后,我们展示了详细的时间复杂性分析以及与其他强 GCN 基线的比较。
预训练用户/物品嵌入
在此,我们将概述我们为实现极其高效的基于图的推荐而设计的整体训练流程。如第 2 节所示,由于图卷积在训练阶段被证明是不必要的,因此我们放弃了图卷积相关操作,只专注于训练随机初始化的 ID 嵌入,如图 4 的训练部分所示。在损失计算方面,我们按照文献中的方法直接优化对齐和均匀性,使中频嵌入训练达到最佳状态,为后续的图卷积阶段打下理想基础。具体来说,对齐损失最小化批次 B 中正对(u𝑖 , v𝑗)的归一化嵌入之间的距离:
\(\mathcal{L}_{align}=\frac1{|\mathcal{B}|}\sum_{(\mathbf{u}_i,\mathbf{v}_j)\in\mathcal{B}}\left\|\mathbf{u}_i-\mathbf{v}_j\right\|^2.\)
均匀性损失\(\mathcal{L}_{uniform}=(\mathcal{L}_{uniform}^U+\mathcal{L}_{uniform}^V)/2,\),用户端的均匀性由以下公式得出:
\(\mathcal{L}_{uniform}^{U}=\log\frac{1}{|\mathcal{B}_{u}|^{2}}\sum_{\mathbf{u}_{i}\in\mathcal{B}_{u}}\sum_{\mathbf{u}_{i^{\prime}}\in\mathcal{B}_{u}}e^{-2\|\mathbf{u}_{i}-\mathbf{u}_{i^{\prime}}\|},\)
最后的损失函数为:
\(\mathcal{L}=\mathcal{L}_{align}+\gamma\mathcal{L}_{uniform}\)
带自循环的离散GCN
依据前面的实验,当图形模型配置为两层或三层时,通常能达到最佳性能。然而,在高阶层突然中断卷积过程是不合适的,因为既没有对前面的浅层进行独特处理,也没有注意到后面的高阶层。这种方法缺乏从低阶图卷积到高阶图卷积的无缝过渡,可能会忽略浅层和深层图关系中蕴含的结构信息的细微差别。这就需要重新考虑不同层深度的图卷积过程,以更好地捕捉推荐背景下图数据的复杂性和动态性。
一个直接的解决方案是将自循环(SL)整合到图卷积过程中。这一简单的操作突出了前几层节点表征在每个信息传递过程中的重要性,有助于逐步过渡到更高阶的连接性。假设我们观察到一对互动的用户和物品,其对应的初始输入 ID 嵌入\(u_i^0\)和 \(v_j^0\),我们根据平滑邻域聚合过程设计无参数图卷积。带有 SL 的图卷积最终确定为:
\(\mathbf{u}_{i}^{k}=\mathbf{u}_{i}^{k-1}+\sum_{j\in N_{i}}\frac1{\sqrt{|N_{i}|}\sqrt{|N_{j}|}}\mathbf{v}_{j}^{k-1},\\\mathbf{v}_{j}^{k}=\mathbf{v}_{j}^{k-1}+\sum_{i\in N_{j}}\frac1{\sqrt{|N_{j}|}\sqrt{|N_{i}|}}\mathbf{u}_{i}^{k-1},\)
之后,通过合成层向表示,得到协同过滤最终嵌入结果:
\(\mathbf{u}_i^{(K)}=\sum_{k=0}^K\mathbf{u}_i^k;\quad\mathbf{v}_j^{(K)}=\sum_{k=0}^K\mathbf{v}_j^k.\)
连续的图-ODE
受从扩散过程推导出连续微分方程来模拟图中动态的启发,我们的目标是设计一种连续版本的具有自循环的离散非参数图卷积。
形式上,给定 h0 作为用户和项目的初始嵌入,我们可以用矩阵运算来重写层信息更新公式:
\(\mathbf{h}_k=\mathbf{Ah}_{k-1},\)
其中,h𝑘 是第𝑘层的节点嵌入,它汇总了节点的邻域信息,并通过自循环与上一层的节点嵌入融合。矩阵 \(\mathbf{A}=\bar{\mathbf{A}}+\mathbf{I}\),\(\bar{\mathbf{A}}\)是归一化邻接矩阵。
因此,层离散图卷积网络 h(K) 的最终结果可以表示为
\(\mathbf{h}(K)=\sum_{k=0}^K\mathbf{h}_k=\sum_{k=0}^K\mathbf{A}^k\mathbf{h}_0.\)
方程6的这个和可以看作是从层0层延伸到层𝐾→∞的黎曼和,过渡到一个连续的ODE函数:
\(\frac{\mathrm{d}\mathbf{h}(t)}{\mathrm{d}t}=\ln\mathbf{A}\mathbf{h}(t)+(\mathbf{A}-\ln\mathbf{A})\mathbf{h}_0,\)
它在一阶泰勒展开近似下简化,其中\(\ln\mathbf{A}=\mathbf{A}-\mathbf{I}=\bar{\mathbf{A}},\),导致:
\(\frac{\mathrm{d}\mathbf{h}(t)}{\mathrm{d}t}=\bar{\mathbf{A}}\mathbf{h}(t)+\mathbf{h}_0.\)
这种连续图卷积网络的一般形式是通过对初始条件进行积分得到的:
\(\mathbf{h}(t)=h_0+\int_0^t[\bar{\mathbf{Ah}}(s)+\mathbf{h}_0]\mathrm{d}(s).\)
需要注意的是,最终的积分形式可以利用积分因子进行分析求解。不过,考虑到计算解析解中矩阵的指数很耗时,我们采用了简单快速的欧拉求解器来近似求解 ODE。
总结
这篇文章的主要方法就是修改了传统的图卷积方式,将图卷积的过程通过一系列数学近似变成求积分的过程,实现进行“连续层数”的图卷积。看实验效果非常好