A Survey on Accuracy-oriented Neural Recommendation From Collaborative Filtering to Content and Context Enriched Recommendation阅读笔记
简介
本文是2022年TKDE上的一篇论文。本文以推荐模型的准确性为目标,系统地介绍了神经推荐模型,是一篇综述性论文,阅读本论文的目的是对推荐系统有一个比较系统的了解,确定目前自己学习的方向,同时寻找未来有哪些值得探索的方向。文章整体分为三大部分介绍神经推荐系统,分别是协同过滤模型、内容增强推荐、时许/序列推荐,下面简要介绍一下这几部分。
协同过滤
基于协同过滤的方法仅仅用到用户与物品的交互信息。再细分可以分为基于表示学习的方法和交互建模的方法。之前我在一篇论文中也看到过说基于协同过滤的模型有两个关键点:1.如何计算用户与物品的embedding。2.用怎样的方法使用户与物品的embedding交互。
表示学习的方法包括经典的矩阵分解算法、基于历史行为注意力算法、自编码器模型和图神经网络模型。
交互的方法有点积、距离模型、神经网络模型。
在协同过滤中,基于GNN的表示学习较为出色,一是因为用户与物品交互数据可以很自然地用一个二部图表示,二是GNN可以显示编码协同信号,并且可以更好利用高阶连通信息,这是其它方法不具备的。对于交互方法,点积的使用是最广泛的,它更高效。
内容增强推荐
内容增强的方法是在利用用户物品交互信息的基础上,再加入物品侧或用户侧的信息。例如用户(物品)文本信息、多媒体信息(视频、图片等)、社交网络等等。作者分为五部分介绍这一节。
首先是特征交叉,主要是针对二阶特征提取,另外还有多阶特征和基于树结构的提取。
第二,文本内容建模。这部分主要利用了NLP相关的知识对文本特征进行处理,比如基于自编码器的方法、基于词嵌入的方法、基于注意力机制的方法以及基于文本可解释性的方法。
第三、多媒体内容建模。这部分主要是针对图片、视频、音频以及它们的组合建模。
之后,社交网络建模。主要介绍了社交正则化和基于GNN的方法。
最后,知识图谱建模。分为基于路径的方法、正则化方法和基于GNN的方法。
选用适合的辅助信息可以帮助模型取得更好的结果。例如,文字信息可以帮助模型生成可解释的推荐,社交网络可以通过社交影响对用户生成更好的推荐。
时序/序列推荐
基于时序/序列的方法是在利用用户物品交互信息的基础上,添加上下文信息进行建模。上下文信息通常是时间、地理位置等(时间是最常用的)。这类方法考虑到用户偏好是动态的,此类方法旨在捕获用户的偏好演化。作者分为基于时序的推荐方法、基于会话的推荐方法和基于时序会话混合的推荐方法这三部分来介绍。
基于时序的方法是建模用户行为随时间变化的动态特性,常用到RNN。
基于会话的方法是建模序列中物品与物品间的交互模型,通常不存在用户登录等相关信息(可以理解为给出一个交互物品的序列,但是你不知道是这是哪位用户的交互序列)。
基于时序会话混合的方法是建模用户的动态偏好及物品的序列模式。
总结
本文是一篇综述论文,虽然论文中提到了很多方法,但基本上都是一笔带过,如果想要深入了解某种方法需要看讲述这种方法的论文。作者在文章中还提出关于模型方面,图推理模型和自监督学习这两个方向有较好的发展前景。目前我个人所读的论文较多的就是有关图神经网络推荐和序列推荐的,根据这篇综述论文来看,这两个方向都算是有很大潜力的。就如作者所说的一样,目前的推荐系统效果还很难让人满意,还有很大的发展空间,我也希望自己能够在推荐系统领域中继续学习探索。