CWMI论文阅读笔记
A Causal View for Multi-Interest User Modeling in News Recommendation论文阅读笔记
Abstract
存在的问题:
过去的方法往往忽视了用户偏好的多样性。近期的研究探索了多兴趣模型来解决这一局限。然而,兴趣对点击行为的影响各不相同,直接建立兴趣与候选人之间的匹配模型会导致虚假相关性问题。具体来说,当高度相关的兴趣掩盖了真正的点击动机时,模型就无法区分真正导致点击的兴趣。
提出方法
为解决这一问题,本文从因果角度重新建模兴趣与点击行为之间的关系。我们提出的用户多兴趣建模反事实加权法(CWMI)由一个分离的多兴趣提取器和一个兴趣再加权模块组成。具体来说,我们首先从因果角度建立兴趣对点击行为的影响模型。然后,我们学习仅包含当前聚类新闻信息的分解用户兴趣。最后,在反事实世界中,我们对当前兴趣进行干预,并通过比较候选者排名的变化对其重新加权。
Introduction
我们的工作源于以下观察。面对众多新闻,用户的不同兴趣会对最终点击产生不同的影响。如图 1 所示,一位漫威电影的粉丝与新闻进行了互动,因为新闻提到了漫威电影《复仇者联盟》的主题。在这个例子中,是用户对漫威电影的兴趣导致了点击,而不是电脑游戏。然而,现有模型无法区分真实动机,只能根据新闻与游戏兴趣之间的高度相关性推荐更多游戏新闻。事实上,现实世界的驱动力是因果关系而非单纯的相关性,相关性并不意味着因果关系。例子中的虚假相关性反过来又会损害用户体验,遗憾的是,目前还没有解决这一问题的成熟方案。
我们认为,推荐模型应该能够揭示导致点击行为的真正兴趣动机。因此,必须从因果关系的角度重新建模兴趣和点击之间的关系。这就提出了两个关键挑战。首先,因果关系图中的每个因素都应是独立的,并能相互分离。然而,现有的方法不能有效地根据兴趣对项目进行聚类,从而使兴趣受到属于其他兴趣的新闻噪音的污染。其次,我们缺乏点击动机的真实标签,这使得了解导致点击的兴趣具有挑战性。幸运的是,反事实推理的最新进展为解决数据噪声和缺失的难题提供了可能。反事实推理可以估计特定路径的因果效应,并消除某些用户/项目特征的因果效应。
具体来说,它沿着特定路径想象一个没有该功能的反事实世界,然后与事实世界进行比较,以估计特定路径的因果效应。当我们将用户的多重兴趣建模为导致点击的因素时,通过干预不同的兴趣并观察其变化,我们就能找出引发点击行为的兴趣。换句话说,我们可以回答反事实问题: 如果这种兴趣不存在,点击行为会怎样?在本文中,我们假设图 1 中的用户在反事实世界中没有电影兴趣,然后观察用户是否还会与这则新闻互动。该新闻在推荐列表中的排名下降得越多,干预带来的影响就越大,这表明对电影的兴趣在激励用户点击方面更为重要。
基于上述分析,我们的工作提出了一种用于用户多兴趣建模的反事实加权方法(CWMI),该方法仅从当前的点击新闻集群中学习兴趣嵌入,并利用反事实推理来模拟不同兴趣对点击行为的重要性。具体来说,CWMI 由两个主要模块组成:分离的多兴趣提取模块和兴趣再加权模块。首先,我们对用户点击的新闻进行聚类,确保具有相似主题的文章根据语义信息紧密分组。然后,为每个聚类的新闻独立计算上下文权重,以确保关注机制只关注当前感兴趣的新闻,从而将学习到的兴趣进行分离。
接下来,在兴趣再加权模块中,我们从两个角度量化了不同兴趣的重要性。从因果角度来看,我们构建了一个因果图来解释用户兴趣对点击的因果影响。通过比较候选条目在反事实世界中排名的下降情况,我们估算出每种兴趣对点击行为的直接影响。从时间角度来看,我们自适应地学习了时间戳在点击行为中的作用,进一步模拟了用户兴趣的演变。
本文的主要贡献如下:
- 我们设计了一个分离的多兴趣提取器来学习兴趣表示,并从因果的角度建模兴趣对点击行为的影响。
- 我们提出了一种基于反事实推理的多兴趣再加权方法,以识别用户点击背后的真实动机。
问题定义
用户点击行为的因果关系视图
在我们的研究中,我们通过因果图对每个用户的点击行为进行建模,如图 2 所示,其中𝑈 、𝐼、𝑌 和 𝜇𝑘 代表因果图的节点。现有的多兴趣用户建模方法直接将用户表示与项目表示相乘,这会导致𝑈 和 𝐼 之间出现虚假相关。造成这种现象的原因是这些方法忽略了用户点击项目时的直接动机。
我们的方法不仅将多重兴趣嵌入作为用户表征来与候选项目进行匹配,而且还认识到它们对点击行为的直接影响,这代表了用户更深层次的动机。具体来说,兴趣对点击行为的总影响(TE)被定义为当兴趣从参考值 𝜇 ∗ 𝑘 变为预期值 𝜇 𝑘 时点击概率的变化:
\(\mathrm{TE}=Y_{U,\mu_k,I}-Y_{U^*,\mu_k^*,I}\)
一般来说,TE 由自然直接效应(NDE)和总间接效应(TIE)两部分组成。本文通过估算 NDE 来确定用户点击的真正原因。如图 2(c)所示,我们建立了一个反事实世界来预测 𝜇𝑘 对 𝑌 的 NDE:
\(\mathrm{NDE}=Y_{U^*,\mu_k,I}-Y_{U^*,\mu_k^*,I}\)
通过比较两种状态之间的差异,我们可以估计当前兴趣𝜇𝑘的影响,并评估其重要性。
Method
本节描述了我们提出的模型,如图3所示。该模型包括两个主要模块:解纠缠多兴趣用户建模和多兴趣加权模块。
解耦多兴趣建模
传统的多兴趣嵌入是通过多头注意力网络来学习的。然而,这些方法往往直接计算用户整个点击序列的上下文权重。这导致它们无法根据不同的兴趣对这些项目进行有效的聚类。因此,每个兴趣嵌入都包含来自其他主题新闻的噪音。这将阻碍用户多种兴趣的分离,使兴趣嵌入缺乏可解释性。
为了获得分散的用户兴趣,一种直观的解决方案是直接利用新闻类别标签作为项目的聚类标准。然而,不同类别的新闻也可能包含相同的语义主题。例如,图 1 中的用户与 “游戏 ”类别的新闻互动,但该新闻也包含 “电影 ”类别的主题。我们的建议提出了一种更详细的方法,即利用新闻文章中丰富的文本信息。具体来说,我们首先将相互作用的新闻项目收集到语义主题一致性集群中,获得每个集群下的子序列\(G_k=[n_1, n_2, \ldots, n_{l_k}]\)
因此,将关于相似语义主题的新闻文章聚类在𝐺𝑘中,超越了新闻类别的粒度,每个聚类的点击行为只反映了用户对这些新闻的偏好。
随后,我们重点提取只与当前群组相关的兴趣。为了获得第 𝑘 个用户兴趣 𝜇𝑘,我们利用 𝐺𝑘 作为多头自我关注的输入,每个关注头h计算当前集群中新闻条目的上下文权重\(a_{p,q}^h\)
\(a_{p,q}^h=softmax(\frac{(W_1^hn_p+b_1^h)\cdot(W_2^hn_q+b_2^h)^T}{\sqrt{d}})\)
然后,我们就得到了与𝐺𝑘 相关的、由注意力模块加权的兴趣:
\(\mu_k^h=\sum_{p=1}^{l_k}a_{p,q}^hn_q\)
值得注意的是,与以往引入可学习的全局上下文嵌入来表示多个用户兴趣的工作不同,我们的注意力模块只关注当前群组的序列,确保兴趣嵌入中没有重叠信号。
下一步是将注意力头的输出串联起来,得到𝐺𝑘 中互动新闻所反映的用户兴趣,最终的用户兴趣表示为 M,\(M=[\mu_1, \mu_2,\ldots, \mu_k],\)且\(\mu_{k}=[\mu_{k}^{1}; \mu_{k}^{2}; \ldots; \mu_{k}^{H}].\)H表示注意力头的数量
多兴趣加权模块
反事实的用户兴趣加权
为了找出点击行为的真正原因,我们将兴趣对点击概率的影响量化为新闻在推荐列表中的排名,以表示图 2(a)中的边 𝜇𝑘 → 𝑌。我们首先计算在事实世界中与𝜇𝑘有过互动的候选者𝑗的匹配得分和排名,即
\(s_{k,j}=f(\mu_{k},n_{j}^{c})=(\mu_{k})^{T}n_{j}^{c}\\idx_{k,j}=rank(s_{k,j})\)
其中,𝑠𝑘,𝑗为第𝑗个候选项目与第𝑘个兴趣的匹配得分。表示图2(a).中的𝜇𝑘→𝑈→𝑌和𝐼→𝑌
𝑟𝑎𝑛𝑘(𝑠𝑘,𝑗)对所有候选人进行排名操作,返回𝑗的排名指数。
为为了构建反事实世界,我们使用𝑑𝑜(𝜇𝑘=𝜇∗𝑘)来估计图2中边𝜇𝑘→𝑌的影响。为了防止当前的兴趣影响𝑈和𝐼的匹配得分,我们将\(\mu_k^*=\mathbb{1}^{1\times d}\)设置为参考值。因此,我们可以得到在参考情况下的匹配得分和排名如下:
\(s_{k,j}^{*}=f(\mu_{k}^{*},n_{j}^{c})=(\mu_{k}^{*})^{T}n_{j}^{c}\\idx_{k,j}^*=rank(s_{k,j}^*)\)
接下来,我们可以通过比较\(n_{j}^{c}\)在参考情况和反事实世界下的点击概率下降来量化𝜇𝑘对点击行为的NDE:
$e_j^k=idx_{k,j}\cdot s_{k,j}*-idx_{k,j}\cdot s_{k,j}^+\varepsilon $
与以往旨在去除干扰因素的反事实推断方法不同,我们的目标是估计兴趣对用户点击的直接影响。较大的\(e_j^k\)表明,如果没有𝜇𝑘,候选项𝑗 的交互概率会显著下降。在这种情况下,𝜇𝑘 代表了用户真正的点击动机,可以推荐被虚假相关性掩盖的𝑗。因此,它在匹配阶段的权重应该更高。
此外,我们认为,在事实世界中排名靠前的新闻应该受到更多关注。因为当\(n_{j}^{c}\)在两个世界的排名都很低时,就意味着𝜇𝑘是无关紧要的,我们应该减少对其排名下降的关注。只有当\(n_{j}^{c}\)在事实世界中排名很高,而在反事实世界中排名显著下降时,我们才能认为𝜇𝑘是点击候选者𝑗的真正动机。因此,我们特别引入了一个因果效应控制因子 𝑗 ,用一个指数衰减的启发式函数来表示:
\(\beta(j)=\frac1{\exp(Norm(idx_{k,j}))}\)
然后,使用多层感知器(MLP)学习用户𝑢 的所有候选新闻的排名递减之间的非线性关系,并使用因果效应控制因子 𝑢对结果进行加权和汇总。因此,𝑢 的第 𝑘 个兴趣的反事实权重 \(\omega_k^c\)建模为:
\(\omega_k^c=W_4ReLU(W_3\sum_{j=1}^{l_c}\beta(j)e_j^k+b_3)+b_4\)
临时用户兴趣加权
新闻的生命周期会对用户偏好产生特别的影响,而用户点击的真正动机也会随着时间的推移而变化。因此,在这项工作中,我们从点击频率的角度来模拟用户兴趣随时间的演变,从而进一步优化用户兴趣的权重。具体来说,我们采用了顺序推荐中常用的一种方法,即使用新闻条目的时间戳来表示其发布时间。为了使我们的模型能够自适应地学习新闻发布时间与多个个性化兴趣之间的深刻关系,我们将用户第 𝑘 个兴趣的时间权重\(\omega_k^T\)建模为:
\(\omega_k^T=GRU(t_1,...,t_i,...t_{l_k},\mu_k)\)
最后,经过 Sigmoid 函数的非线性映射,得出用户点击行为的 𝑘 个个性化兴趣嵌入的重要性权重:
\(\omega_k=\frac{\exp(\omega_k^C+\omega_k^T)}{1+\exp(\omega_k^C+\omega_k^T)}\)
模型训练
我们使用交叉熵损失函数来训练我们的模型。为了更好地区分正面和负面样本,我们采用了硬负面样本策略。确切地说,我们将用户印象列表中的正样本集合定义为 O + 。对于每个正样本𝑛 𝑐 𝑝𝑜𝑠 ∈ O+,我们从用户印象列表中未点击的新闻中提取余弦相似度最高的新闻作为负样本,形成负样本集 O -。这种策略有助于兴趣嵌入学习到更多有说服力的信息,并能更好地区分语义相似的负面样本。因此,我们可以得到用户与目标条目之间的加权匹配得分为
\(score_j=\max_{1\leq k\leq K}(f(M,n_j^c))=\max_{1\leq k\leq K}((\underline{\omega_k}\odot\mu_k)^Tn_j^c)\)
我们使用 𝜔𝑘,根据兴趣对点击和时间演化的因果影响,对每个兴趣进行重新加权。最后,模型训练会最大化每个正向目标项相对于训练集中剩余负向目标项的似然得分:
\(\mathcal{L}(\mu_k,n_{pos}^c)=-ln\frac{\exp(score_{pos})}{\sum_{n_*^c\in O^+\cup O^-}\exp(score_*)}\)
总结
这篇文章整体还是讲的比较清晰,感觉提出的方法的核心点就是对用户交互的历史新闻的表示进行重加权,这里跟注意力机制很像,但是实际上是做了更进一步的工作,也就是分析哪些兴趣是更重要的,于是就提出了因果相关的方法来进行分析。这篇文章的核心点就是对表示进行重加权的操作,最后再用时序相关的操作进行更进一步的重加权。