EEG论文阅读笔记
Combining Explicit Entity Graph with Implicit Text Information for News Recommendation论文阅读笔记
Abstract
现存的问题
现有模型通常侧重于通过隐式文本信息来学习相应的表征,这可能不足以为用户兴趣建模。即使从外部知识中考虑实体信息,也可能无法明确有效地用于用户建模。
提出方法
本文提出了一种结合显式实体图和隐式文本信息的新型新闻推荐方法。实体图由两种节点和三种边组成,分别代表时间顺序关系、相关关系和隶属关系。然后利用图神经网络对这些节点进行推理。
Introduction
即使当前许多方法提出了从新闻文章和外部知识中学习知识感知新闻表征的方法,不同新闻之间的交互可能仍然不足以学习用户表征。因为实体信息被隐含地概括在密集的新闻向量中,无法显式地用于跨新闻的用户兴趣建模。此外,从知识图谱中提取的实体嵌入在实际场景中会占用额外的空间。
因此,在本文中,我们建议使用图神经网络(GNN)对不同实体和不同新闻之间的用户兴趣进行显式建模。我们还将显式实体图与隐式文本信息相结合,进一步增强了用户代表性。我们提出的实体图中有两类节点,即新闻节点和实体节点。新闻节点的表示来自我们模型中的新闻提取器。而实体节点的表示则来自相应的词嵌入。不同新闻节点之间的边和同一新闻中新闻与实体节点之间的边是单向的,分别表示时间顺序和隶属关系。实体节点之间的边是双向的,表示不同新闻中同一实体之间的联系。此外,ResNet提到,最终的新闻表示由原始的隐式新闻表示和显式实体图中的推理新闻表示组成。通过整合传统文本信息和上述实体图,可以更准确、更完整地捕捉用户兴趣。
Method
在本节中,我们将从三个阶段介绍我们的方法。首先,我们根据新闻的不同属性计算隐式文本表示。然后,我们使用 GNN 对显式实体图和隐式文本信息进行推理。最后,我们根据新闻和用户表征预测点击概率,并将前两个阶段的结果进行整合。我们的模型架构如下图所示。
隐式文本信息
新闻的隐含语义特征可直接从文本的标题、摘要和正文中提取。我们使用三层方法来获取新闻各组成部分的表示。第一层是词嵌入层,可以将每个词转换为相应的分布式表示。第二层使用CNN提取隐式文本特征。经过这两层表示后标题、摘要和正文可以表示为:
\([\mathbf{w}_1^t,\mathbf{w}_2^t,...,\mathbf{w}_M^t],[\mathbf{w}_1^a,\mathbf{w}_2^a,...,\mathbf{w}_N^a]\)和\([\mathbf{w}_1^b,\mathbf{w}_2^b,...,\mathbf{w}_O^b]\)
在第三层使用注意力机制进行聚合,具体公式就不写了,最后获取密集的单词嵌入表示\(d_t,d_a,d_b\)
类似地,我们可以通过汇总摘要、标题和正文的表示来获得新闻表示,即\(\mathbf{d}=\sum\alpha_i\mathbf{d}_i\),其中 i∈ {t, a,b}, αi 是每个组件的关注权重。新闻的隐式表示将用于用户表示的实体图中。
显式实体图
本部分旨在通过图神经网络对显性实体和隐性文本进行推理。首先,根据与隐式文本信息相同的词嵌入方法,将新闻中的实体序列转换为相应的向量。实体由 MIND 数据集提供,通过其内部的 NER 和实体链接工具提取并链接到 WikiData4。然后,我们就可以获得新的实体表示和点击新闻,用于用户建模。计算过程如下:
\(G=\mathrm{GNN}([\mathrm{W}^\mathrm{e};\mathrm{D}],\mathrm{E})\)
其中,We 和 D 分别代表点击新闻中的实体和新闻集。实体集由不同的实体嵌入we组成。新闻集由用户浏览的新闻 d 组成。E 包含三种类型的边,即新闻-新闻、新闻-实体、实体-实体。
将这些节点和边输入图神经网络进行推理后,我们可以得到这些节点的新表示 G = [g1 , g2 , ..., gP ],其中 P 表示被点击新闻和相应实体的总数。
用户信息聚合
我们在这一部分将原始的隐式新闻表示与新闻节点的显式表示相结合,即\(\mathbf{d}_i^g=[\mathbf{d}_i;\mathbf{d}_i^{\prime}],\),其中 di 是根据隐式文本信息获得的第 i 条新闻的原始表示,di ′ 是根据图 G 获得的第 i 条新闻的新表示。最后,我们使用类似的关注函数为用户表示 u 聚合点击新闻,计算就是按照注意力机制进行的,公式见原文
预测和训练
预测还是点积的方式,训练还是使用的是传统的损失函数
\(\mathcal{L}=-\sum_{i\in\mathcal{T}}\log(\frac{e^{\hat{y}_i^+}}{e^{\hat{y}_i^+}+\sum_{j=1}^Ke^{\hat{y}_{i,j}^-}})\)
总结
这篇文章讲的还是比较清晰的,这里贴一下原文的conclusion
本文提出了一种新颖的新闻推荐方法--EEG,它将显式实体图与隐式文本信息相结合。它能充分、准确地增强用户的代表性。实体图由两种节点和三种边组成。节点可以表示新闻和实体。而边可以表示时间顺序、相关和隶属关系。然后利用图神经网络对该图进行推理。