PLM-NR论文阅读笔记
Empowering News Recommendation with Pre-trained Language Models论文阅读笔记
Abstract
现存的问题:
现有的新闻推荐方法主要基于传统的文本建模方法对新闻文本进行建模,这对于挖掘新闻文本中的深层语义信息并不是最优的。
解决方案
深层语义信息并不是最优的。预先训练的语言模型(plm)对于自然语言理解非常强大,它有可能实现更好的新闻建模。
Introduction
由于新闻文章通常具有丰富的文本信息,因此新闻文本建模是理解新闻推荐的新闻内容的关键。现有的新闻推荐方法通常基于传统的NLP模型对新闻文本进行建模。plm在建模新闻文本中复杂的上下文信息方面具有更强的能力,有改进新闻文本建模的潜力。
在本文中,我们提出了我们用预先训练的语言模型(PLMNR)授权大规模新闻推荐的工作。与现有的使用浅层NLP模型进行新闻建模的新闻推荐方法不同,我们探索用预先训练过的语言模型对新闻进行建模,并使用新闻推荐任务对其进行微调。
Method
在本节中,我们将介绍由PLM授权的新闻推荐(PLM-NR)的细节。我们首先介绍了一般的新闻推荐模型框架,然后介绍了如何将plm合并到这个框架中,以增强新闻建模的能力。
普通新闻的推荐框架如下:
PLM-NR的新闻推荐框架如下:
PLM增强的新闻推荐
接下来,我们将介绍 PLM-NR 的框架,如图 2 所示。我们将新闻编码器与一个预训练的语言模型和一个注意力网络实例化,前者用于捕捉新闻文本中的深层语境,后者用于汇集 PLM 的输出。我们将包含 M 个标记的输入新闻文本表示为 [w1,w2, ...,wM ]。PLM 将每个标记转换为其嵌入,然后通过多个 Transformer 层学习单词的隐藏表示。我们将隐藏标记表示序列记为 [r1, r2, ..., rM ]。我们使用注意力网络将隐藏标记表征总结为统一的新闻嵌入。由 PLM 和注意力网络学习到的新闻嵌入将进一步用于用户建模和候选匹配。
模型训练
我们还使用负抽样技术从原始新闻印象日志中建立标注样本,并通过分类哪些候选新闻被点击来使用交叉熵损失函数进行模型训练。通过反向传播优化损失函数,可以针对新闻推荐任务调整推荐模型和 PLM 的参数。