GFormer论文阅读笔记

Graph Transformer for Recommendation论文阅读笔记

Abstract

​ 本文提出了一种将生成式自监督学习与图转换器架构集成的推荐系统中的表示学习新方法。我们强调了高质量的数据增强与自监督借口相关的任务对提高性能的重要性。为此,我们提出了一种新方法,通过合理感知生成式 SSL 自动执行自监督增强过程,从而提炼出信息丰富的用户-项目交互模式。建议的推荐器采用图形转换器(Graph TransFormer,GFormer),可为选择性增强提供参数化协作理由发现,同时保留全局感知的用户-物品关系。在GFrormer中,我们允许原理感知的SSL在图转换器中使用任务自适应不变合理化来激励图协同过滤。

Introduction

​ 从有偏差的数据中引入增强的SSL信息可以放大噪声效应,从而稀释了对真正的用户-项目交互模式的学习。因此,现有的解决方案可能无法适应自我监督过程,以适应不断变化的实际推荐环境。

​ 尽管ssl增强的推荐系统取得了进步,但一个基本问题仍然知之甚少:哪些信息是至关重要的,应该保留自我监督增强推荐?由于掩码自编码(MAE)技术在推进自监督学习方面取得的成功,本工作从理性感知不变表示学习的生成自我监督增强的角度探讨了上述问题。与对比学习不同,掩蔽自动编码器范式直接采用重构目标作为数据增强的原则性借口任务。它自然地避免了上面讨论的数据增强的手动生成对比视图的局限性

​ 在这项工作中,我们提出了一种新的图变换推荐系统,以自动提取具有不变协同原理的掩蔽自监督信号。我们从基本原理发现中获得灵感,通过自适应增强来弥补图屏蔽自编码器之间的差距。我们的GFrormer充分利用了变压器在明确编码成对关系中的能力,以发现有利于下游推荐任务的有用的自监督信号,并解释了它们自己的基本原理。

​ 在这项工作中,我们提出了一种新的推荐系统,利用图形转换器(Graph TransFormer)自动提炼具有不变协作理由的屏蔽自监督信号。弥补了图掩码自动编码器与自适应增强之间的差距。我们的 GFormer 充分利用了 Transformer 在明确编码成对关系方面的强大功能,以发现有益于下游推荐任务的有用自监督信号,并解释其自身的原理。

​ 具体来说,我们开发了一种拓扑感知图转换器,将其集成到用户-物品交互建模中,从而实现自动协作理由发现。在 GFormer 中,用户-物品关系图的拓扑信息以图位置编码的形式被视为全局上下文。为了使 GFormer 适应不同的推荐环境,它在任务自适应协作理由发现的指导下,学习形成适当的交互模式作为自我监督信号。

​ 本文的贡献如下:

  • 这项研究通过探索 SSL 增强协同合理化的增强方案,重新审视了自监督推荐。我们不仅在 SSL 中实现了自动数据增强器,还提供了对自监督增强背后的合理性的理解,以提高模型的鲁棒性。
  • 我们提出了一种原则性方法,用于发现具有图转换器协作关系的不变原理。我们引入了任务感知适应,以缓解数据级差异问题。然后,需要使用图自动编码器来重建被掩盖的用户-项目交互,以便进行增强。

Method

模型的整体框架如下:

pkJWAvn.png

图不变基本原理说明

​ 为了消除噪声特征的影响,提高模型的可解释性,我们探索了具有合理化的表示学习,以识别指导模型预测结果的重要特征的子集。最近,合理化学习技术被引入到图表示学习中,通过发现重要的图结构信息的不变的基本原理,以有利于下游的图挖掘任务。在我们的基于图的CF场景中,我们的不变原理发现方案被设计为寻找图结构的子集,最好地指导下游推荐任务的自我监督增强。我们的图协作关系的不变基本原理发现旨在从两个角度优化以下目标:性能充分性和补充独立性。这一目标被正式规定为:

minD(f(R(G)),f(G))+I(R(G),C(R(G)))

​ 𝑓 (-) 表示预测函数,而 𝑅(-) 和 𝐶(-) 分别表示输入图 G 的基本原理和基本原理的补码。具体来说,为了实现性能充分性,第一项的目标是最大限度地减少使用原理𝑅(G)与整个图 G 之间的性能差异。这样一来,图协作关系的重要结构信息就能很好地保存在我们学习到的𝑅(G)中。

​ 此外,为了通过减少噪声信号来追求补码的独立性,第二项寻求将补码图结构 𝐶(𝑅(G)) 和基本原理 𝑅(G) 的依赖性降至最低。根据这一目标,我们发现的理由的补码对标签预测的影响很小。因此,我们的图原理发现可以利用用户和项目之间的不变关系,同时减轻虚假交互的噪声影响。

图协作基本原理的发现

​ 为了实现抗干扰的自我监督增强功能,我们的 GFormer 致力于自动提炼交互图 G 上的重要图结构,即协作原理。为了生成信息丰富的交互子图结构,我们的协作原理发现设计用于估算子图 G𝑅 成为交互图理由的概率如下

p(R(G)=GR)=eERp(e|G)eEC(1p(ek|G))GR={V,ER},GRp(R(G)=GR),|ER|=ρR|E|GC={V,EC},EC={e|eE,eER}

​ 其中,𝜌𝑅 表示被选为协作原理 GR 的交互边的比例。 G𝐶 被定义为包含不属于 G R的边的子图。在此,我们定义𝑒 和 𝑒′ 分别表示原理子图和补充子图中的用户-项目交互。为了估算上述分布概率,我们的 GFormer 提出推断𝑝(𝑒 |G)和𝑝(𝑒′ |G)两条边被识别为基本原理的概率。有了节点嵌入的图编码器,参数化基本原理生成器就可以按以下方式正式推广:

p(e|G)GT(G,TE(H;ΘTE);ΘGT);argmaxΘTE,ΘGTLRD

​ 受 Transformer 中自我关注的依赖合理化设计的启发,我们的图编码器 GT(-) 建立在图 Transformer 架构之上,为了将全局拓扑上下文注入不变性原理发现过程,我们设计了图拓扑嵌入模块 TE(-),以捕捉整个图中的协作效应。H表示所有用户物品节点的嵌入,LRD是基于BPR的目标函数

全局拓扑信息注入

​ 受位置感知图神经网络(position-aware graph neural networks)在捕捉全局关系信息方面强大功能的启发,我们的 GFormer 建议通过保留高阶用户/物品依赖关系来增强协作式理由发现。我们首先从用户-物品交互图 G = {V, E} 中抽取一组锚节点 V𝐴 ⊂ V。为了根据用户和物品与锚节点的连接性来表示用户和物品的全局拓扑嵌入,我们计算目标节点𝑣𝑘与每个锚节点𝑣𝑎 之间的距离𝑑𝑘,𝑎,其中距离被定义为在 G 中从𝑣𝑘 到𝑣𝑎 所必须穿越的最小边数。根据计算出的距离,我们得出每对目标-锚节点(𝑘, 𝑎)的相关权重𝜔𝑘,𝑎如下:

ωk,a={1dk,a+1ifdk,aq0otherwise

​ 𝑞表示任何目标和锚节点之间的相关权值允许的最大值,用于规范化目的。然后将节点相关权值归一化到[0,1]的范围。利用权值𝜔𝑘,𝑎,我们通过考虑目标节点𝑘与每个锚定节点a之间的相关权值来细化目标节点的嵌入。

h~kl=vaVAWlωk,a[h~kl1||h~al1]/|VA|

​ 然后,我们将这些信息注入到id对应的嵌入中,以获得拓扑嵌入,如下所示:

H¯=TE(H;{WTlT})

​ 通过这种方式,我们的参数化基本原理生成器可以捕获全局协作关系,并识别用户和项目之间交互的信息模式,用于SSL增强。

带有图变换器的基本原理发现

​ 我们的原理发现旨在提取用户与项目互动的信息模式,这些模式可用于在监督标签有限的不断变化的推荐环境中进行自监督增强。具体来说,我们提出了一种新颖的方法来学习环境不变的用户偏好信息,将其作为具有选择性增强功能的生成式自监督信号。

​ 我们的参数化原理发现模块建立在图转换器框架之上,将隐含的标签不变节点关系编码为选定的合理性。为了将用户和项目节点的位置信息纳入拓扑学习过程,我们将全局拓扑感知节点嵌入H¯输入多头自关注机制进行合理化。具体来说,我们学习节点𝑣𝑘和𝑣𝑘 ′相对于第h个注意力头的相关性,如下所示:

αk,kh=expα~k,khkexpα~k,kh;α~k,kh=(WQhh¯k)(WKhh¯k)d/H

​ 由于我们的图转换器编码的注意力分数捕获了节点级依赖的强度,我们将多头分数聚合,得到图边的概率分数p((vk,vk)|G),如𝑣𝑘-𝑣𝑘’,作为基本原理选择。这些基本原理对应于重要的用户-项目交互模式的子集,这些模式最好地阐明了用户偏好学习过程,其表现为:

p((vk,vk)|G)=α¯k,k(vk,vk)Eα¯k,k;α¯k,k=h=1Hαk,kh/H

​ 为了对拓扑感知图转换器估算出的合理性进行采样,我们会根据边缘的概率分数𝑝( (𝑣𝑘 , 𝑣𝑘 ′ )|G),从边缘集 E 中单独采样ρR|E|边缘。这里,超参数𝜌𝑅∈ R 控制着被选中进行合理化的重要边子集的大小。

任务自适应的基本原理的发现

​ 为了在合理性发现中执行任务级适应,我们的 GFormer 是一种任务适应性合理性发现范例,可以执行特定任务的合理化,从而提供定制化推荐。具体来说,我们的模型利用图转换器中的嵌入和提炼出的理由来生成用户对项目偏好的预测。这一过程的形式如下:

y¯i,j=ziLzjL;zkL=(vk,vk)ERβk,kzkl1;Z0=GT(G,TE(H))=||h=1Hkαk,khWVhh¯k+h¯k

zkL是节点vk经过L层LightGCN后的表示,ER表示原理图的采样边集,βk,k=1/dkdk

​ 损失函数采用BPR Loss

原理感知的自增强

原理激活的图掩码自编码器

​ 我们提出的用于发现协作原理的自蒸馏范式包括通过图屏蔽自动编码对提炼出的用户-物品信息交互模式进行自增强。为此,我们在 GFormer 中配置了合理性感知掩码自动编码器,该编码器会从交互图中掩码已识别的合理性,以便进行基于自动编码的重构。为了对屏蔽图结构 G𝑀 = {V, E𝑀 } 进行采样,我们使用了原理得分的倒数。这样,我们就能屏蔽最重要的原理结构,如下所示:

EMpM(EM|G)=(vk,vk)EMαk,kM(vk,vk)EEMαk,kM|EM|=ρM|E|;αk,kM=α¯k,kM(vk,vk)Eα¯k,kM;α¯k,kM=1α¯k,k+ϵ

​ 掩码图的边密度比原理图的边密度要高,以便只移除最重要的原理边,从而实现抗噪自动编码。然后,带有边集 E𝑀 的屏蔽图 G𝑀 被用作自动编码器网络的输入,具体如下:

S=GT(GM,TE(S¯L));s¯l=(vk,vk)EMβk,ks¯kl1

​ 嵌入S 用于训练被屏蔽的用户-物品交互的重建。这可以表示为

LMAE=(vk,vk)EEMy~k,k;y~k,k=sksk

​ L_MAE 是重建遮蔽交互模式的训练目标。˜𝑦𝑘,𝑘′代表图 G 上边(𝑣𝑘 , 𝑣𝑘 ′)的预测得分。受协作理性发现的启发,我们对图掩码自动编码器进行了训练,以重建重要的交互模式,从而适应下游的推荐任务。我们的合理性感知增强方法可以防止我们的生成 SSL 受到噪声边的影响。

补充独立性建模

​ 我们引入了一个学习组件,以鼓励提炼出的协作理由与其相应补语之间的独立性,从而减少信息冗余。这是通过对比正则化来实现的,即我们尽量减小理由图 G𝑅 和采样补图 G𝐶 之间的互信息。对补图的采样方式与图屏蔽类似,但采样率不同 𝜌𝐶 << 𝜌𝑀,以识别噪声边。补图 G𝐶 = {V, E𝐶 } 的生成过程如下:

ECpC(EC|G)=pM(EC|G);|EC|=ρC|E|

​ 为了确保补图 G𝐶 不包含可能影响独立性正则化的非噪声边,我们使用了较低的采样率 𝜌𝐶。然后,我们应用以下损失来最小化高阶表示中的原理图 G𝑅 和补图 G𝐶 之间的相似性:

LCIR=logvkVexpcos(ekR,ekC)/τER=LGCNL(H,GR);EC=LGCNL(H,GC)

SSL增强模型优化

LRec=ai,j=1logexpsisjpjPexpsisj

​ 总体的优化目标为:

L=LRec+LRCS+λ1LRD+λ2LCIR+λ3ΘF2

总结

​ 最后整理一下,按照示意图来总结一下

​ 首先这篇文章的第一个步骤是全局拓扑信息的注入,是怎么干的呢,首先是选定一些锚节点,然后根据锚节点与目标节点之间的最小跳数定义一下相关的权重,然后根据这些锚节点以及目标节点本身来进行一次加权的聚合,获取目标节点的嵌入,称为拓扑嵌入。

​ 第二个步骤是多头注意力机制,也就是依据Q,K来计算某两个邻居节点之间的一个权重,然后对权重进行一次归一化,将归一化后的权重作为单个头的注意力的分数

​ 然后是拓扑感知的多头聚合,刚刚获取了多个头的注意力的分数,对这多个头注意力分数取平均值,然后再进行一次归一化,然后就得到了交互的分数值,这样重构的图就是原理图

​ 第三个步骤是认为自适应的原理发现,这里也就是介绍了一种聚合方法,聚合的方式就是加权聚合,不过只聚合采样的边集,权重是依据边上的两个节点的度决定的。然后又介绍了初始化的嵌入,初始化的嵌入就是将采样图上的邻居节点的拓扑嵌入按照刚刚计算的注意力分数以及V矩阵来进行聚合,并且加上原始节点的拓扑嵌入。

​ 最后一个步骤是原理激发图的掩码自编码,这里有一个掩码系数,掩码系数是根据刚刚计算的注意力分数的倒数来计算得到的,之后对掩码系数进行归一化获得掩码概率,按照掩码概率进行掩码后获取了一个新的图,然后在新的图上进行卷积,初始嵌入就为用户物品ID的原始嵌入。损失函数就是重建边的交互,也就是使得原始有交互的两个节点的表示的预测分数最大化。然后是对补图的一个补码独立性建模,将原始图和补图都经过图神经网络,使得最终生成的对应的节点之间嵌入的相似度尽可能小。

​ 然后整理一下损失函数的含义

Lrec就是点级的损失函数,也就是使得交互的两个节点的预测值尽可能大,LRCS原文里没有看到在哪,应该是LMAE这个损失函数吧,使得重建后的图与原始图尽可能保持一致。LRD就是BPR损失函数,是经过多头注意力机制得到的嵌入来进行损失函数的计算。LCIR就是原始图与补图差距拉大的损失函数。

posted @   ANewPro  阅读(239)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示