Denoising Explicit Social Signals for Robust Recommendation论文阅读笔记
Denoising Explicit Social Signals for Robust Recommendation论文阅读笔记
Abstract
现存的问题:
社交推荐系统假定用户的偏好会受到其社交关系的影响。然而,社交网络本身是有噪声的,并且包含对推荐任务无益甚至有害的冗余信号。在本扩展摘要中,我们将显式社交链接中的噪声分为内在噪声和外在噪声。内在噪音是指那些在社交网络中自然存在但对用户偏好建模没有影响的边缘;而外在噪音则是指那些通过恶意攻击有意引入的社交链接,攻击者可以通过操纵社交影响力来使推荐结果产生偏差。
提出方法:
我们首先提出了一个自监督去噪框架,该框架可以学习过滤掉嘈杂的社交边缘。具体来说,我们引入了关键意见领袖的影响力,以阻碍噪声信号的扩散,同时作为一个额外的来源来增强用户偏好建模,并缓解数据稀疏性问题。最后,我们将讨论如何通过对抗训练从攻击者的角度抵御外在噪声的未来计划。
Introduction
在现实中,用户的社交行为往往非常复杂,给数据带来了随机性和噪音。这些噪声源可能与准确模拟用户偏好无关,甚至会带来影响推荐结果的偏差。此外,大多数研究都是在复杂的离线社交数据集上进行实验,与真实的在线社交网络相比,这些数据集所含的噪声较少,因此模型的稳健性和实用性值得怀疑。
为此,我们将噪声数据分为两类,即内在噪声和外在噪声。内在噪音是社交网络固有的自然数据,但不一定有助于用户建模。具体来说,社交关系并不一定会影响彼此的消费偏好。因此,汇总此类噪声信息会导致次优的用户表征,损害模型的稳健性。外部噪音是故意引入的,目的是使推荐结果产生偏差,因此可被视为一种恶意攻击。在社交网络中,攻击者首先会与尽可能多的用户建立联系。一旦邻域足够大,他们就可以利用社会影响力通过自我网络传播信息。
为解决内在噪音问题,一种解决方案是从现有网络中提取可靠的社交联系,但过滤后的社交网络会变得过于稀疏,不利于用户建模。另一类解决方案是生成未被观察到但可能具有社会影响力的隐式社会联系,并利用它们来增强用户建模。然而,这不可避免地会引入额外的噪音。此外,由于我们没有标签来说明哪些边是有噪声的,因此过滤现有边或插入新边大多是启发式的,没有有效的监督,也不能保证它们与推荐任务的相关性。
具体来说,挑战如下
-
如何有效地学习检测和过滤由于缺乏社交噪声标签而与推荐任务无关的内在噪声;
-
如何抵御恶意攻击产生的外在噪声;
-
整合这两个方面来创建一个稳健的社交推荐系统。
通过应对这些挑战,本文的目标是提高社交推荐系统的整体性能和鲁棒性,确保其在实际应用中能够提供准确、可信的推荐。
Method
由于内在和外在噪声都会在社交网络中产生噪声边,不利于用户偏好建模,因此我们首先提出了一个鲁棒的框架,该框架可以学习只提取相关的社交边,而丢弃噪声边,以增强项目预测。此外,我们还在去噪过程中引入了意见领袖的概念,并将其用于用户偏好建模,从而缓解了数据稀疏性问题。今后,我们将专门针对外在噪声进行研究,以开发一种能够抵御产生此类噪声的攻击的模型。
整体的框架
我们开发了一种新颖的去噪框架,该框架通过执行两项自我监督的对比学习任务,学会过滤掉嘈杂的社交关系。我们还在框架中引入了关键意见领袖(KOL)的影响力。一方面,它可以作为影响用户偏好的额外来源,从而解决社交网络的高稀疏性问题;另一方面,KOL 可以用来防止噪声传播,实现增强模型鲁棒性的目标。
用户偏好建模
每个用户初始化时都有两个嵌入项,分别代表其在交互空间和社交空间中的情况。之所以要有两个独立的嵌入,是因为与推荐相关的社会信号与交互空间中的协作信号不同。例如,用户对物品的偏好可能是非常具体的,而邻居的影响可能是抽象的。我们使用图卷积网络(GCN)分别学习用户在交互空间中的表征和社交邻里对其偏好的影响。具体来说,我们采用了有效的 LightGCN框架,去除了传统设计中的特征转换和非线性激活。
关键意见领袖
关键意见领袖(KOL)是指其行为更有可能影响社交网络中其他用户的用户群体。与邻近用户的局部影响不同,KOL 具有全球性和普遍性,是增强用户偏好建模和缓解社交网络稀疏性的宝贵资源。具体来说,我们利用注意力网络区分每个 KOL 的重要性,并为每个用户聚合所有 KOL 的注意力。学习到的 KOL 影响力将与用户的交互网络表示和社交邻居影响力相结合,从而得到用户的最终表示。
此外,我们还认识到,通过 KOL 传播的信息会在网络上迅速扩散。因此,如果通过 KOL 阻断噪音信号的传播,我们就能将噪音的负面影响降到最低。因此,我们利用 KOL 充当社交网络的 "去噪器",以减少噪音信号的影响。尽管有上述好处,但我们并没有明确的标签来表明哪些节点是 KOL。为了解决这个问题,我们开发了一种 KOL 识别器,通过学习来预测节点成为 KOL 的可能性:
\(p_i=f(\{x_{ia}|a\in A\})=\sigma(MLP(\{x_{ia}|a\in A\})),\)
其中,𝑝𝑖表示节点𝑖a是KOL的可能性。 f() 表示 KOL 识别器,;A 为输入特征集。根据社会科学和影响力营销领域的理论,KOL 的属性可以从三个方面来描述:个人特征、专业知识和社会位置。根据这一分类,我们设计了相应的特征作为影响者判别器的输入:
- 个人特征:我们利用用户的潜在社会嵌入来表示他们的个人资料和个人特征
- 专业知识:这可以衡量用户了解什么以及了解程度如何。具体来说,我们使用用户的潜在偏好嵌入、U-I 网络中的度中心性、与社会邻居的共同项目比例以及专业化(该用户消费的项目有多相似)来描述用户的专业知识。
- 社会地位:这是通过社会网络中目标节点的拓扑度量来衡量的,包括度中心性、局部中心性和聚类系数(衡量目标节点邻域的连通性)。
社交网络去噪
社交网络中包含一些没有社会影响力的噪声边,而这些边却被不加区分地用于增强用户偏好建模,这将导致次优表示。为了解决这个问题,我们开发了一种噪声判别器,它能预测边缘噪声的可能性有多大:
\(p_{ij}=g([e_i,e_j])=\sigma(MLP([e_i,e_j])),\)
其中𝑝𝑖𝑗表示节点i对节点j没有影响的可能性。g (.)表示噪声鉴别器。𝑒𝑖和𝑒𝑗表示节点𝑖和节点𝑗的社会表征。
噪声判别器将与 KOL 判别器一起用于去噪社会信号,提高模型的鲁棒性。由于我们没有社会噪音或 KOL 的标签作为监督,因此 KOL 识别器和社会噪音识别器的优化都是通过自我监督学习实现的。具体来说,我们在不同的增强视图上执行两个对比学习任务:
- 边dropout:它根据学习到的𝑝𝑖𝑗 随机删除社交网络中的边,以消除网络中的噪音。边缘删除会进行两次,以创建两个增强图视图。由于噪声的影响不大,去除噪声会导致用户建模的微小差异。我们对在两种不同视图下学习到的节点嵌入进行对比学习,以最小化它们之间的差异。
- KOL阻断:正如我们之前所强调的,KOL 在信息传播中占据着至关重要的地位,而阻止噪声信号到达 KOL 可以大大降低其负面影响。因此,在本模块中,我们首先对一组社会噪音进行采样,然后根据学习到的概率𝑝𝑖,将其从两组 KOL 的采样邻域中移除,从而得到两个增强视图。在这两种视图之间再进行一次对比学习,以最大化它们之间的互信息。
使用InfoNCE作为损失函数
推断
在推理阶段,我们首先使用训练好的判别器计算每条社会边缘的𝑝𝑖𝑗和每个节点的𝑝𝑖。然后,𝑝𝑖𝑗 大于预设阈值的边缘将被剔除,我们选择𝑝𝑖最高的 k 节点(k 是一个超参数)作为 KOL。最后,我们使用过滤后的社交网络和 KOL 建立用户偏好模型。
总结
本文讲解的比较清楚,就是没有模型示意图,这个就不太好。这里来总结一下。
首先是关键意见领袖的建模,为每个用户聚合所有KOL的注意力,然后与用户的交互表示和社交邻居的影响结合得到用户的最终表示。然后开发了一种KOL的识别器,以节点的特征作为输入,包括三种特征,分别是个人特征、专业知识和社会地位。
获取到KOL节点之后就要进行社交网络去噪,开发了一种噪声判别器来预测边的噪声可能性多大,然后设计了两个对比学习任务,第一个是根据学习到的噪声可能性进行边的dropout,从而进行对比学习。第二个是KOL的阻断,因为用户的表示也是与KOL结合得来的,然后根据学习到的是否是KOL的概率来对KOL的采样邻域中移除,也就是对KOL的表示进行扰动,从而得到两个增强的视图,然后进行对比学习。