GDMSR论文阅读笔记
Robust Preference-Guided Denoising for Graph based Social Recommendation论文阅读笔记
Abstract
存在的问题
就推荐的有效性和效率而言,大部分社交关系可能是冗余的,甚至是嘈杂的,例如,朋友在某个领域没有共同的偏好是很正常的。现有模型并不能完全解决关系冗余和噪音问题,因为它们直接描述的是整个社交网络的社交影响力。
在本文中,我们建议改进基于图的社交推荐,只保留有信息量的社交关系,以确保有效和高效的信息扩散,即图去噪。我们设计的去噪方法是以偏好为导向来模拟社会关系的一致性,并通过为推荐模型提供去噪但更翔实的社会图来反过来帮助用户偏好学习。此外,为了避免嘈杂社会关系的干扰,它还设计了一个自校正课程学习模块和一个自适应去噪策略,两者都偏向于高共识样本。
Introduction
以往直接描述整个社交网络社交影响力的 GSocRec 模型有两个缺点。其一是在完整的用户-用户图上学习 GNN 会给计算和存储带来巨大负担。另一个问题是可能对推荐准确性产生负面影响。虽然之前的一些研究提出通过注意力机制或期望最大化方法来处理社会影响的多样性问题,但它们仍然缺乏地面实况标签,因此无法有效地学习社会影响程度。
为了彻底解决上述问题,我们建议通过对社交网络去噪来改进基于图的社交推荐,即从原始图中去除那些冗余或嘈杂的社交关系,只保留信息量大的社交关系,从而更高效、更有效地学习 GSocRec 模型。然而,由于以下两个挑战,对 GSocRec 模型进行图去噪并非易事:
- 如何克服以推荐为目的的信息社会关系识别困难?用户社会关系形成的原因复杂,并不一定会诱发相似的用户偏好,这增加了识别有用关系的难度。
- 在存在噪声标签的情况下,如何实现稳健的图去噪?在社交推荐的背景下,很大一部分用户关系对于增强用户偏好学习是无用甚至有害的。因此,它们可以被视为噪声信号,对图去噪提出了鲁棒性要求。
在本文中,我们为 GSocRec 模型提出了一个新颖的去噪增强推荐框架,如图 1(b) 所示。该框架的核心是社交推荐图去噪方法(Graph Denoising Method for Social Recommendation,简称 GDMSR),它利用用户偏好从海量候选对象中识别出信息丰富的社交关系,并将其保留为去噪社交图,从而使下游 GSocRec 模型具有任意结构。为了解决关系可信度的第一个挑战,GDMSR 的设计从两方面更好地利用了偏好引导,即基于偏好的显式关系建模和推荐损失的隐式协同监督。
至于稳健去噪的第二个挑战,它配备了一个自校正课程学习模块和一个自适应去噪策略,这两个模块都有利于高度信心的样本(即对偏好学习有用的社会关系)。总而言之,我们的主要贡献如下。
- 在基于图的社交推荐中,我们重新思考了社交网络的可靠性,并提供了一个通过图去噪来提高可靠性的新角度。
- 我们设计了一个图去噪框架,该框架以偏好为导向,对社会关系信心进行建模,并通过用户偏好学习获得回报,与一般的 GSocRec 模型兼容。
本文的框架如下:
Discussion on Shortcomings
以往关于 GSocRec 模型的研究一般都是通过利用社交影响的效果来增强用户偏好学习。因此,GSocRec 模型的关键部分是社交影响力扩散建模,其目的是识别与目标用户兴趣相近的朋友,并将他们的影响力有效地传播给该用户。为了实现这一目标,GSocRec 模型通过信息传递中的关注机制来描述社会影响力的多样性。然而,所有这些方法都必须在完整的 G𝑠 上学习推荐模型,这意味着要在那些弱连接用户之间进行大量无用的消息传递操作,从而导致严重的效率问题。此外,由于用户之间的社会关系是由于各种原因形成的,𝑢 和 𝑣 很可能在某个领域没有共同兴趣或兴趣截然不同。因此,保留 (𝑢, 𝑣)甚至会降低推荐的准确性,因为它会引入噪声信息。在这种情况下,除了冗余问题,GSocRec 模型还应解决噪声问题。
Method
为了解决冗余和噪声社会关系带来的问题,我们提出了 GDMSR 方法,该方法可以作为一个通用框架,通过对原始社会图去噪来增强基于 GNN 的任意社会推荐模型。一方面,GDMSR 利用用户偏好信号来指导图的去噪过程,这有助于识别社交推荐中的信息性社交关系。另一方面,为了实现对带有噪声关系的原始社交图的鲁棒学习,GDMSR 进一步加入了自校正课程学习机制,以减少这些噪声标签数据的影响。经过上述有效而稳健的图去噪训练过程后,得到的模型将以自适应的方式用于社交网络的去噪。
模型的详细框架如下:
偏好导向的图去噪网络
为推荐而对用户连接的社交网络进行去噪的一个主要挑战是缺乏对冗余社交关系的地面实况标签,因此在训练模型时对每个存在的链接都一视同仁,从而无法从海量数据中识别出有价值的链接。目前的社交推荐模型希望通过可学习的消息传递机制(如 GAT)自动捕捉多样化的社交影响,但由于推荐损失的间接监督,这种方法可能效果不佳。由于去噪的目的是为用户偏好学习获取一个稀疏但信息量更大的社交图,我们建议设计一个偏好引导的图去噪网络,以解决社交推荐中的社交关系冗余问题。
基于GCN的表示学习
与基于 GNN 的社交推荐模型类似,我们在 GDMSR 中设计的偏好引导图去噪网络也采用了基于 GNN 的模型结构,输入相同的社交图 G𝑠 和交互图 G𝑟。由于我们的目标是通过注意力机制改进之前的学习方法,因此特定的 GNN 模块是 GCN,而不是 GAT。
连接预测训练
给定两个用户𝑢和𝑣 之间的置信度分数预测,即\(\hat{r}_{uv}\),链接预测问题的目标是最小化以下二元交叉熵(BCE)相似损失函数:
\(\mathcal{L}^{BCE}=-\sum_{(u,v)\in\mathcal{R}}\log(\sigma(\hat{r}_{uv}))-\sum_{(u,w)\notin\mathcal{R}}\log(1-\sigma(\hat{r}_{uw})).\)
在利用用户偏好作为社交图谱去噪的指导信号方面,GDMSR 有以下两种设计,以更好地利用上述有用知识。
基于偏好的关系置信度模型
计算关系置信度\(\hat{r}_{uv}\)的常用方法是设计一个评分函数 𝜙 (-),即:
\(\hat{r}_{uv}=\phi\left(\{\mathbf{E}_1^{(k)}(u)\}_{k=0}^K,\{\mathbf{E}_1^{(k)}(v)\}_{k=0}^K\right),\)
然而,我们认为这种关系置信度建模方式并不精确,因为输入\(\{\mathbf{E}_1^{(k)}\}_{k=0}^K\)可能会接收到不相关的信息。𝑘 =0 可能会接收到不相关的信息。
要想在社会推荐的背景下找到有影响力的朋友,直接比较他们的互动历史是很直观的,因为这些互动历史描述了他们偏好的相似性。然而,上述基于GCN的用户表示\(\{\mathbf{E}_1^{(k)}\}_{k=0}^K\)嵌入了更全面的用户特征视图,包括用户配置文件(即\(\mathbf{E}_1^{(0)}\))、用户偏好和社会影响(即\(\mathbf{E}_1^{(1)}\))和更高阶特征的融合。为了确保从用户偏好出发提供简单而有效的指导,我们提出的 GDMSR 只使用交互历史记录来描述两个好友之间的关系可信度。数学上,\(\hat{r}_{uv}\)的计算公式如下:
\(\hat{r}_{\boldsymbol{u}\boldsymbol{v}}=\mathrm{Trf}\left(S_L\left(\left\{\mathbf{E}_2^{(0)}(i)|\forall i\in\mathcal{P}_{\boldsymbol{u}}\right\}\right)\oplus S_L\left(\left\{\mathbf{E}_2^{(0)}(j)|\forall j\in\mathcal{P}_{\boldsymbol{v}}\right\}\right)\right),\)
其中的 Transformer 模块(表示为 Trf)可用于模拟两个用户交互历史记录序列之间的相似性。具体来说,输入是两个序列嵌入(表示为𝑆𝐿 (-))的连接,分别代表𝑢和𝑣的交互历史,每个序列嵌入的固定长度为 𝐿 由于在关系置信度建模中不需要位置信息,因此我们在转换器中不使用位置编码。至于输出,我们会在输入序列末尾添加一个 "CLS "相似标记,并使用相应的变换器编码嵌入向量,用 MLP 计算\(\hat{r}_{uv}\)。
与推荐损失的共同优化
除了设计上述基于偏好的关系置信度建模结构外,我们还通过将去噪模型与推荐损失共同优化来进一步加强偏好引导。项目嵌入的质量对于表征用户之间的关系可信度至关重要。出于通过自我监督学习提高表示质量的想法,我们建议添加一个推荐损失,同时训练项目嵌入来预测用户偏好,这将有利于它们在图去噪中的使用。因此,最终的损失函数如下:
\(\mathcal{L}=\alpha\mathcal{L}^{BCE}+(1-\alpha)\mathcal{L}^{BPR},\)
总之,我们提出的 GDMSR 可以从两方面利用用户偏好对社会关系进行去噪,即基于偏好的显式关系建模和来自偏好学习的隐式协同监督,这两方面都有助于解决社会关系冗余问题。
社交网络的鲁棒性去噪
为推荐而对社交网络进行去噪的另一个关键挑战是存在噪声社交关系(即没有共同偏好的好友),这增加了去噪模型的学习难度。例如,假设有两个有联系的用户{𝑢, 𝑣 }具有不同的偏好,有两组相互影响的项目{P𝑢, P𝑣 },而这两组项目之间的相关性较低,将\(\hat{r}_{uv}\)推到一个较大的值一般是很困难的,可能会诱发一个有偏差的模型来记忆这个困难的样本。因此,所提出的 GDMSR 设计了一种自校正课程学习机制和自适应去噪策略,以减轻这种噪声影响,从而实现鲁棒的图去噪。
自我校准课程学习机制
在 GDMSR 学习过程中,噪声概率较高的关系(即当前去噪模型预测的置信度较低的)会被移除,被移除的关系集每隔几个训练历元与模型保持动态更新。这等同于遵循一个基于难度的课程表,该课程表倾向于更容易的样本,以实现噪声下的稳健学习,并根据当前模型不断修正该课程表,用更容易的样本替换更难的样本。具体来说,对于用户𝑢,其好友中按\(\hat{r}_{uv}\)排序的最后\(𝜂_u\)被视为噪声关系,应从训练中删除。这个集合每隔 𝐷 个时程更新一次,其中 𝐷 是一个超参数,代表上述自校正课程中每个周期的长度。
自适应的去噪策略
如图 2 所示,训练好的去噪模型将用于社交网络去噪的最后阶段,即预测每个存在的社交关系的置信度得分,并去除置信度低的社交关系。一方面,由于有噪声标签的训练过程可能不稳定,因此在训练过程中对其预测结果进行平滑处理可进一步增强 GDMSR 的鲁棒性。具体来说,在第𝑘个课程周期(即第𝑘𝐷个epoch)结束时的\(\hat{r}_{uv}\)会被上一个周期的结果平滑。数学上,\(\hat{r}_{uv}\)的更新方法如下:
\(\hat{r}_{uv}(t=kD)=\beta\cdot\hat{r}_{uv}(t=(k-1)D)+(1-\beta)\cdot\hat{r}_{uv}(t=kD),\)
另一方面,我们建议根据用户 𝑢 的好友数量(即 |R𝑢 |)对其社交图谱进行自适应去噪。具体来说,对于每个用户𝑢,我们会从原始图 G𝑠 中删除𝑢的好友𝜂𝑢,其中我们使用的超参数𝜂𝑢与上述课程设计中的相同。在数学上,去噪比𝜂𝑢 的计算公式如下:
\(\left.\eta_u=\left\{\begin{array}{ll}0,&\mathrm{if}\left|\mathcal{R}_u\right|<\epsilon,\\\left[\left\lfloor\log_{10}(|\mathcal{R}_u|)\right\rfloor\right]^\gamma\times R,&\mathrm{else},\end{array}\right.\right.\)
该公式的核心思想是,连接稀疏的用户(|R𝑢 | < 𝜖)可以保留其所有关系,而连接密集的用户则可以在去噪图\(G_s^d\)中剪切更多关系,这与均匀丢弃相比,无论好友数量多少,都更加鲁棒。
总之,通过在训练过程中遵循上述自校正课程,并采用自适应的去噪方式,我们提出的 GDMSR 能够根据用户偏好对社会关系进行稳健去噪。至此,我们已经完成了整个去噪过程,整个算法如下所示。
总结
最后来整理一下,这篇文章整体讲的还是十分清晰的,这里按照模型图来整理一下,首先用传统的社交推荐的方法对用户和物品进行建模,获取用户和物品的表示,然后具体去噪的方法分为两个部分
第一个部分是用户与用户之间交互置信度的建模,这里是用两个用户之间的交互历史记录还描述用户之间的关系可信度。
第二个部分是根据关系可信度进行去噪,可信度靠后的交互用户会被丢弃,丢弃用户的数量按照一种自适应的方法来进行计算。