【论文随笔】推荐系统综述_推荐模型、推荐技术与应用领域(A Survey of Recommendation Systems_ Recommendation Models, Techniques, and Application Fields)

前言

今天读的论文为一篇于2022年1月3日发表的论文,这篇文章是关于推荐系统的综述,主要研究了推荐系统在不同服务领域的应用趋势,包括推荐模型、技术和应用领域。通过分析2010年至2021年间发表的顶级文章和顶级会议论文,系统化了推荐系统模型和技术的研究,并分析了按年份的研究趋势。文章还对推荐系统在各个应用服务领域中的应用进行了分类,并分析了每个领域中使用的推荐系统模型和技术。研究发现,推荐系统的详细研究与实际应用服务领域的业务增长相互作用。文章为对推荐系统感兴趣的研究人员提供了全面的总结,并通过对服务领域中各种技术和趋势的分析,为未来研究方向提供了指导。

要引用这篇论文,请使用以下格式:

Ko, Hyeyoung, et al. "A survey of recommendation systems: recommendation models, techniques, and application fields." Electronics 11.1 (2022): 141.

摘要

本文回顾了推荐系统在各种服务领域中使用的先进技术方面的研究趋势以及这些服务的商业方面。首先,为了对推荐系统的数据挖掘技术、推荐模型和相关研究进行可靠分析,收集并回顾了2010年至2021年间在Google Scholar上发表的135多篇顶级文章和顶级会议论文。基于此,系统化了推荐系统模型和推荐系统使用的技术的研究,并分析了按年份的研究趋势。此外,对推荐系统使用的应用服务领域进行了分类,并分析了每个领域中使用的推荐系统模型和推荐技术的研究。此外,从2010年到2021年,收集了大量与应用服务相关的数据,并与各种推荐系统研究以及应用服务领域的行业数据一起进行了回顾。研究结果表明,推荐系统的各种详细研究的流动和数量增长与实际应用服务领域的商业增长相互作用。本文在提供推荐系统的全面总结的同时,通过分析其各种技术和服务领域的趋势,为许多对推荐系统感兴趣的研究人员提供了洞察。


摘要部分通过分析2010至2021年间发表的顶级文章和会议论文,系统化了推荐系统模型和技术的研究,并探讨了推荐系统在不同服务领域的应用趋势,揭示了推荐系统研究与实际服务业务增长之间的相互作用。

引言

互联网和智能设备的发展与普及显著增加了网络、应用和社交网络平台的流量。此外,这些平台正在增加收集各种能够识别用户偏好的信息数据。特别是,用户社交网络平台的积极使用使得能够获取广泛的数据,例如与用户相关的关注者信息、推文数据以及用户上传的信息。

此外,与智能设备相连的可穿戴传感器的发展促进了收集各种与用户相关的运动和生物医学数据。因此,互联网和智能设备已成为可以收集各种用户数据的环境。不仅可以利用用户直接提供的表情数据,如点赞和评分,这些在现有的推荐系统中主要使用,还可以利用用户的点击数据(点击流)和代表用户行为模式的隐式访问信息数据,如记录。

最近,通过利用推荐系统中的隐式数据,研究认知型推荐系统,分析用户的个性或行为以确定他们的偏好,这种研究方法能够快速反映用户偏好的变化。这种方法的优势在于能够迅速适应用户偏好的变化。为了利用用户的显式数据和隐式数据进行项目推荐,需要通过各种数据挖掘技术来理解用户的口味。因此,正在进行的研究旨在不断提高基于用户选择项目的历史、推荐结果的反馈以及用户之间的相关性评估等的推荐洞察力。因此,为了改进推荐系统本身的表现,正在积极开展和扩展研究。基于分析数据的结果,需要过滤服务提供的各种项目信息,以推荐符合用户口味或需求的定制项目。

推荐系统模型对应于这种过滤方法。在推荐系统模型研究领域,现有模型的局限性不断得到补充和发展。换句话说,过去十年中,包括数据挖掘技术和推荐模型在内的复杂推荐系统的研究迅速增加,以在多领域环境中利用收集到的大量数据,广泛理解用户的口味,为用户提供更合理的推荐。另一方面,尽管推荐系统已经有超过29年的历史,但最近它受到特别关注的原因,尤其是视频内容流媒体领域,如Netflix,其市场迅速扩大。这项服务通过分析大量图像内容、信息数据、用户活动数据和类似用户的数据,推荐反映用户口味的视频内容。在流媒体领域使用这种推荐系统已经提高了用户满意度。因此,Netflix正在创造一种消费现象,这种现象正在取代或超越现有的影院和电视媒体服务的消费。

此外,基于社交网络平台的服务可以收集各种数据,如评价数据和社交数据,并且可以进行各种推荐。此外,社交网络数据也被用于其他服务领域,以提供适合用户口味的服务。这不仅有助于提高推荐的表现,而且也导致了服务领域的许多商业变革,如旅游和电子商务。在用户直接体验的服务领域,对推荐系统的兴趣不仅来自专业研究人员,而且来自普通用户本身。推荐系统使用的服务领域已经扩大,并且已经进行了研究,以精确匹配服务领域的特点。因此,发现推荐系统应用的服务领域以及导致这种趋势的代表性服务的兴趣,可以认为源于推荐系统核心研究的日益增长。本研究的数据收集方法有两种。首先,研究推荐模型和推荐技术的推荐趋势。

其次,为了研究推荐服务领域,从各种与推荐系统相关的研究中选择高可靠性的研究进行收集和分析。为此,主要使用Google Scholar作为搜索引擎,并利用关键词如Recommender System、Recommendation System、Content-Based Filtering、Collaborative Filtering和Hybrid Recommender System收集自2010年以来的所有论文。

此外,本研究仅限于期刊数据库中的论文,如ELSEVIER、IEEE、ACM、JSTOR和Springer,并再次限制在前100名期刊中。在收集过程中,会议论文、硕士博士论文、教科书、未发表论文、非英语论文和新闻文章被排除在本研究的调查之外。然而,在会议论文的情况下,包括NIPS、AAAI、ICML、WWW、KDD、IJCAI等顶级会议的论文在收集后被纳入分析目标,最终基于约100篇分析目标论文进行研究。通过这种方式,将推荐系统的理论与实际服务联系起来的研究以可靠的论文为重点进行结构化。图1直观地解释了简要过程。

在本研究中,为了分析推荐服务应用领域的趋势,使用Google Scholar作为主要搜索引擎,收集了自2010年以来使用关键词搜索服务应用领域和服务推荐的论文。随后,按年份排列了发表的论文数量,并在期间指出了代表性服务的规模或价值趋势,以便将研究与应用联系起来进行回顾。图2直观地解释了简要过程。与前一节不同,该研究部分旨在基于整个数据领域提供洞察,以分析整体研究和服务领域的流动。通过这两种研究方法,我们旨在提高主要推荐系统相关内容的可靠性,并把握大量研究的流动,为未来研究的方向设定提供垫脚石。

image

image

引言部分强调了互联网和智能设备的发展如何促进了用户数据的收集,以及这些数据如何被用于推荐系统以提供个性化的内容。文章提到了推荐系统在多个领域的应用,包括视频流媒体、社交网络服务、电子商务等,并指出了推荐系统研究的增长与这些服务领域的商业增长之间的相互作用。此外,文章还提到了推荐系统模型的局限性,以及为了克服这些局限性而进行的研究,特别是混合推荐模型的研究。最后,文章概述了研究方法,包括对推荐系统模型和技术的研究趋势进行系统化分析,以及对推荐系统在不同服务领域应用的分类和分析。

文献调查

推荐系统是一种有用的技术,可以缓解向用户提供的信息过载问题。它预测要推荐给用户的物品的等级,为每个用户创建推荐排名列表,并使得能够推荐与用户相关的项目[13]。几个平台服务通过引入推荐系统,积极推荐满足用户需求的个性化项目。为了提高这些推荐的性能,正在进行各种推荐过滤模型和数据挖掘技术的研究[14]。在本研究中,通过分析2010年以来的研究论文,研究了推荐系统中使用的推荐模型的数据挖掘技术及其实用性,并分析了相关研究的整体趋势。图3是一个总结自2010年以来研究论文中使用的推荐系统的表格。图4是一个总结推荐模型和推荐技术整体分析流程的图表。此外,通过将推荐系统使用的主要服务应用领域进行分类,并展示相关领域的研究以及主要服务和相关研究趋势,可以了解推荐系统领域的整体趋势。

2.1 推荐模型

自1990年代首次提出的协同过滤模型以来,推荐系统一直在学术界和工业界的各个领域得到积极研究、应用和扩展,直到最近[15]。推荐系统是信息过滤系统,在可以保存或收集各种数据的服务环境中为用户提供个性化的项目推荐。信息过滤,主要用于推荐系统,是根据用户的偏好或仅建议对用户有用的项目进行定制的[16]。Iyengar等人[17]指出,用户喜欢有很多选择,同时,当选择的难度增加时,选择的满意度会降低。也就是说,为了提高用户对推荐系统服务的满意度,需要通过推荐模型向用户推荐各种项目,以扩大用户选择项目的范围。同时,通过分析用户的隐式和显式数据以及与用户相似的一组用户的数据,通过绘制与用户习惯和特征相匹配的项目列表,减少了选择过载。图5总结了协同过滤、基于内容的过滤和混合系统等推荐系统模型的一般过程。

2.1.1 基于内容的过滤

1992年,从Loeb等人[18]的研究开始,出现了各种信息过滤模型。基于内容的过滤是一种推荐与用户喜欢的项目具有相似属性的项目的方法,它基于项目的信息进行推荐[19]。也就是说,它是一种基于用户过去选择的项目的信息推荐相似项目的方法。基于内容的过滤模型是整个推荐系统模型中最基本的模型,主要用于早期的推荐系统。然而,根据Salter等人[20]的研究,基于内容的过滤模型只推荐与用户先前评估的项目密切相关的数据,因此该系统以其无法推荐新项目的局限性而闻名。也就是说,它的缺点在于不为用户提供接触各种内容的机会。由于这些局限性,该模型主要在易于根据项目信息和用户档案信息推荐的服务中使用。它主要用于各种应用领域,如根据音乐属性的推荐[21]、根据电影属性的推荐[20]、电子商务推荐[22]和教育材料推荐[23]。基于内容的过滤模型使用文本挖掘技术来识别用户偏好,语义分析[24]、TF-IDF(词频-逆文档频率[25]、神经网络[26]、朴素贝叶斯和SVM[19]。自2012年以来,随着混合推荐模型研究的增加,单独使用基于内容的过滤的使用逐渐减少,其应用领域也开始缩小。图6是内容过滤模型项目推荐原理的视觉总结。

2.1.2 协同过滤

协同过滤是一种信息过滤模型,首次出现在1990年代,并成为后续推荐系统研究的基石[27,28]。协同过滤是一种模型,它使用用户的评价数据构建用户的偏好数据库,预测符合用户口味的项目,然后用于推荐[14]。这个模型可以分为基于记忆的协同过滤和基于模型的协同过滤[29]。基于记忆的协同过滤可以进一步分为基于用户的协同过滤和基于项目的协同过滤。基于用户的协同过滤是一种模型,它通过比较同一项目每个用户的评价数据来比较用户之间的相似性,然后根据相似用户组的评分来创建和推荐最适合口味的前N项列表。基于项目的协同过滤通过创建用户和项目的评价矩阵,使用项目之间的相似性来预测用户选择的项目。换句话说,基于记忆的协同过滤使用诸如皮尔逊相关性、向量余弦相似度和KNN等技术,在用户之间创建相似的群体(邻域群体),并向同一群体内的用户推荐项目[30,31]。

由于在亚马逊等电子商务服务中使用了基于记忆的协同过滤,协同过滤推荐模型防止了客户流失并增加了销售额[32]。然而,如果模型没有包含足够的数据,可能会出现三个问题:稀疏性、冷启动和灰羊。首先,稀疏性问题是在推荐时没有足够数据可用的问题[33]。同样,冷启动问题发生在没有评价数据的情况下,即由于服务开始时新用户的涌入而成为第一个评价者[34]。最后,灰羊问题是指当与个体用户的评价数据相似的用户集合太小,导致推荐困难的问题[35]。为了解决这个问题,研究了基于模型的协同过滤,它使用用户评价的数据来估计或学习预测模型[32]。对于基于模型的协同过滤,主要使用了聚类、SVD和PCA等技术。

图6. 基于内容过滤模型的推荐原理。
image

2.1.3 混合系统

由于基于内容的过滤模型依赖于用户项目的元数据,而协同过滤依赖于用户对项目的评分数据,因此提出了混合推荐模型来解决两种推荐过滤模型的局限性,并提高推荐性能[43]。

混合推荐模型分为七种类型:加权混合化、切换混合化、级联混合化、混合混合化、特征组合、特征增强和元级别,根据Burks研究中结合过滤技术的方法进行分类[44]。表1是一个总结Burks研究中介绍的七种混合推荐模型方法的表格[44]。

表1. 根据结合过滤技术的混合系统的七种类型和概念。
image

由于混合推荐模型主要旨在解决稀疏性问题,大多数处理混合推荐模型的研究的主要目标是通过整合基于内容的过滤和协同过滤模型的信息来补偿评分数据的不足。与混合推荐模型相关的研究包括以下几项:一项研究使用贝叶斯概率矩阵分解框架存储用户评价数据的矩阵来补充口味数据,并使用自动编码器学习具有不足用户偏好信息的侧信息数据[45];一项研究使用自动编码器学习用户和项目的非线性活动并去除堆叠的噪声,整合信息[46];以及一项研究通过引入各种侧信息项目,除了对项目明确评分外,还包括用户之间的社交联系和项目信息数据,构建推荐系统模型[47]。这些研究各自试图缓解稀疏性问题。图8是混合推荐模型项目推荐原理的视觉总结。

特征增强 一种混合方法,其中一个推荐系统模型用于分类项目的偏好分数或项目,生成的信息被整合到下一个推荐系统模型中。
元级别 使用一个推荐系统的整个模型作为另一个推荐系统模型的输入数据的方法。由于用户的口味被压缩并使用元级别表达,因此比使用原始评分数据作为单一输入数据时更容易操作协同机制。

由于混合推荐模型主要旨在解决稀疏性问题,大多数处理混合推荐模型的研究的主要目标是通过整合基于内容的过滤和协同过滤模型的信息来补偿评分数据的不足。与混合推荐模型相关的研究包括以下几项:一项研究使用贝叶斯概率矩阵分解框架存储用户评价数据的矩阵来补充口味数据,并使用自动编码器学习具有不足用户偏好信息的侧信息数据[45];一项研究使用自动编码器学习用户和项目的非线性活动并去除堆叠的噪声,整合信息[46];以及一项研究通过引入各种侧信息项目,除了对项目明确评分外,还包括用户之间的社交联系和项目信息数据,构建推荐系统模型[47]。这些研究各自试图缓解稀疏性问题。图8是混合推荐模型项目推荐原理的视觉总结。

2.1.4 推荐系统的质量评估指标

为了评估推荐系统模型的性能,需要量化优秀推荐系统的特征[48]。在本研究中,分析了推荐系统研究中常用的模型质量评估标准的测量标准。评估推荐系统性能的最简单方法是RMSE(均方根误差)。RMSE是评估预测准确性的常用指标,通过计算实际等级与预测等级之间的平方差的均值(MSE)的平方根得到[49]。推荐系统的常见质量评估指标包括精确度[50,51]、召回率[50,51]、准确性[48]、F-度量[51]、ROC曲线[49]、AUC(曲线下面积)[52]。混淆矩阵用于计算推荐模型的质量评估指标的值。表2是一个混淆矩阵,它可视化了预测值和实际值,以衡量推荐系统的性能。这个矩阵通过将用户偏好的项目分类为推荐系统推荐的项目,使定量测量成为可能。每一行表示反映用户偏好的项目,每一列表示推荐模型是否推荐了相应的项目。真阳性(TP)表示当推荐系统推荐项目时,与用户偏好匹配的项目数量。真阴性(TN)表示用户偏好的项目中,推荐系统没有推荐的数量。假阳性(FP)表示系统推荐了用户不偏好的项目的情况数量。假阴性(FN)表示系统没有为用户偏好的项目提供推荐的情况数量。这里,所有阳性中实际阳性的比例称为TPR(真阳性率),所有阴性中假阳性的比例称为FPR(假阳性率)[53]。TPR与召回率值相同。

表2. 推荐系统的混淆矩阵。
image

一个表现良好的推荐系统意味着它能够推荐适合用户口味的项目。此外,不推荐不适合用户口味的项目也是一个好的推荐系统模型的一部分。通常,准确性被用作评估推荐模型性能的指标。准确性是成功推荐与所有推荐项目的比例。

由于用户偏好项目的信息数据不平衡时,准确性很难准确判断模型性能[54]。因此,为了更详细地评估性能,使用精确度和召回率指标。精确度是通过计算模型推荐给用户的物品中与用户口味匹配的物品比例得出的。召回率是通过计算推荐模型基于实际用户选择的物品向用户推荐的项目比例得出的。精确度和召回率是权衡的。因此,有时需要计算F-度量值来检查两个指标的综合结果[55]。F-度量是精确度和召回率的调和平均值。精确度、召回率和F-度量值在0到1之间,值越高,推荐模型的性能越好。ROC曲线是一个图表,显示了FPR和TPR之间的关系。这种方法主要用于直观地解释精确度和召回率的性能结果比例。由于ROC曲线是一个图表,很难获得定量值。为了弥补这个问题,主要使用AUC指数。AUC是ROC曲线下的面积,可以通过计算AUC的面积来衡量推荐模型的准确性。随着AUC值越接近1,可以评估模型的性能越优秀。一般来说,如果AUC值在0.8或以上,模型被认为是提供高精度的[52]。表3总结了评估推荐系统性能的一般质量评估指标的公式和定义。

2.1.5 推荐模型的研究趋势

如图9和表4所示,本文调查的时间点是2010年后的Web 3.0,这是在Web 2.0之后自2010年以来创建的[56]。这是一个“智能网络”,通过语义网络和数据挖掘分析的信息数据与机器学习和人工智能相结合。这是从Web 2.0演变而来的,Web 2.0中,如Twitter和博客等社交网络服务连接了人们,并基于这些连接创建和共享了各种数据。通过分析大量增加的数据,现在可以推荐考虑用户口味的项目。从2012年开始,从网络收集的数据开始被认真地用于推荐系统[57],并成为推荐系统稳步发展的基石。图9可视化了Web的发展,表4比较了根据Web 1.0、Web 2.0和Web 3.0的发展,每个元素的特征。

表3. 推荐系统的混淆矩阵。
image

图9. Web发展。
image

图10可视化了根据本文设定的调查标准收集的论文中,研究三种推荐模型的论文数量随时间的变化趋势。

图10. 根据本研究标准收集的论文中,推荐系统研究的推荐模型趋势。
image

基于内容的过滤是最简单的推荐模型。在21世纪初,有许多研究使用它向用户呈现推荐,但由于其只推荐有偏见的项目的缺点,自2010年以来,单独使用此模型的研究数量逐渐减少。然而,它仍在以文本信息为中心的应用领域,如书籍和新闻领域,持续被研究和利用。

协同过滤是使用最频繁和研究最多的推荐模型,占所有论文的41.6%。这是因为亚马逊产品推荐系统中使用的推荐过滤模型非常有效,并被认为具有高工业使用价值。尽管协同过滤存在局限性,但研究一直在克服这些局限性。如图10所示,自2014年以来,协同过滤推荐系统模型的研究有所减少,而混合推荐模型的研究数量增加超过了协同过滤,但可以看出研究仍在积极进行。

2.2. 推荐技术

数据挖掘是一种技术,通过在大型数据集中进行数据分析,发现数据之间的相关性和模式,从而提取有用的信息[58]。它分析项目信息,使得能够向用户推荐与项目相似的物品,并在用户之间创建相似的用户组,以识别与用户组匹配的客户端/访客点击流数据。它还可以推荐定制的浏览选项,以满足特定用户的需求[59]。推荐系统主要使用各种数据挖掘分析技术。图11是对本节将要描述的推荐系统中主要使用的技术的视觉总结。此外,图12显示了一个典型的数据挖掘过程。

图11. 推荐系统中主要使用的技术。
image

图12. 典型的数据挖掘过程。
image

2.2.1. 文本挖掘

文本挖掘是一种技术,通过从数据中提取与文本相关的信息来发现有用的文本信息。随着自然语言处理技术的最新发展,从相应的文本中提取了语义上重要的信息[60]。当自然语言处理用于某些文本分析过程时,倾向于基于单词的频率进行分析,因此在理解语义方面存在局限性[61]。为了准确把握文本的含义,开始使用本体论[62],它定义了项目和文本领域的概念模式的共同词汇,并通过构建概念模式来组织含义。

这种文本挖掘用于基于内容的过滤推荐模型中,通过对项目信息进行语义分析来推荐相似的项目[19]。此外,协同过滤推荐模型评估用户之间信息数据的语义知识,实现相似性的物品推荐[62]。图13是典型文本挖掘过程的视觉总结。

图12. 典型的数据挖掘过程。
image

另一方面,为了使用户能够在互联网上搜索项目,重要的是展示文本的准确的语义分析结果,但也需要一种识别上下文的机制。因此,为了使人与人之间的交流变得有用,文本挖掘技术正在向情境感知发展[63]。作为一种文本挖掘技术,模糊语言建模(FLM)将模糊逻辑引入自然语言处理,并使用模糊子集分析语言的含义[64]。如果在推荐系统中使用FLM,就可以识别项目的多语言上下文。特别是当用户偏好不明确或用户偏好数据不足时,它提供了通过分析项目之间的文本数据来获取不足的偏好数据的优势[65]。

文本挖掘技术主要用于健康护理、教育、旅游和学术服务领域。

2.2.2. KNN(K-最近邻)

K-最近邻(KNN)是一种算法,它通过将测试元组和训练元组的K个最近邻分类来对数据集进行分类。KNN基于距离加权比较数据项之间的相似性,对数据集进行分类[67]。欧几里得距离、余弦相似度和皮尔逊相关性主要用于比较相似性的度量。当KNN算法用于推荐系统时,可以对用户的搜索模式进行分类,并预测用户的未来偏好。通过分析用户行为数据的模式,如用户的Web服务器日志和点击流数据,可以用来对与用户口味相似的项目进行分类,然后用结果推荐合适的项目。另一方面,Jannach等人[68]发表了一项研究结果,表明使用KNN算法研究的推荐模型的性能较差。由于KNN必须选择一个适当的K值,这个值控制着模型的性能,存在需要重复实验的效率问题,以及被K值偏见的问题[68]。此外,当输入数据的大小很大时,KNN的性能会降低。因此,当输入数据的大小很大时,应该使用降维技术,将数据转换为有意义的表达。降维的主要目标是在不丢失信息的情况下减少数据,主成分分析(PCA)和线性判别分析(LDA)主要用于此目的。

2.2.3. 聚类

聚类是一种算法,用于识别有限的类别或簇来描述数据,由于其低冗余性和模糊性,在推荐系统中被广泛使用[69]。在推荐系统中使用了许多不同类型的聚类技术,但主要使用K-均值聚类。K-均值聚类是一种在设置K个簇的数量后,围绕均值进行聚类的算法。在推荐系统中计算所有数据的相似性后,将其分配给最近的簇,并按计算簇中心的顺序重复计算[70]。然而,如果簇的数量很小,K-均值聚类容易受到可扩展性问题的影响,即当用户和项目数量增加时,计算速度会降低,而推荐系统正在服务[71]。另一方面,Gong[72]基于用户对项目的评分,对用户进行聚类和项目聚类,进行了研究,以推荐个性化的推荐项目。通过研究基于项目相似性找到与推荐目标用户相似的簇组的方法,解决了现有协同过滤方法的可扩展性和稀缺性问题。聚类主要用于协同过滤推荐模型,并通常在旅游、教育和电子商务领域的推荐系统中进行研究。

2.2.4. 矩阵分解

矩阵分解推荐系统通过Netflix奖而广为人知,特别解决了协同过滤中的稀缺性问题[73]。矩阵分解是一种在用户对项目的评价数据中推断元素后,将它们作为向量存储的方法[74]。这种技术的主要用途是通过将用户的评价数据存储在评分矩阵中,找到表达用户信息和用户偏好的潜在因子的维度[75]。特别是,它可以分析用户通过鼠标移动和搜索模式等数据,以及用户直接对特定项目进行的显式评价数据,从而提供良好的可扩展性和灵活性[74]。奇异值分解(SVD)是一种通过分析各种项目数据来为用户提供预测数据的方法,将用户和选择的项目转换到相同的潜在因子空间[76]。该算法通过减少计算负载,提高了推荐系统的效率。在现有的推荐系统中,由于SNS领域中标签和喜欢数据的推荐,很难识别用户偏好,因为多个用户可以基于共同项目的数值评价进行推荐[77]。然而,矩阵分解被广泛使用,因为它可以在SNS领域收集的各种信息中提供推荐[4,78-80]。

2.2.5. 神经网络

近年来,神经网络在语音识别、图像识别、照片搜索和语言翻译等领域得到了广泛应用。另一方面,尽管在推荐系统领域引入和使用神经网络相对较少,但许多研究正在进行,作为推荐系统相关研究的主要兴趣领域之一。它被广泛用于在难以通过历史数据理解用户偏好的情况下获取额外数据[81,82]。此外,He等人[83]使用深度神经网络(DNN)对嘈杂的隐式反馈数据进行建模,以提高推荐系统的性能;深度学习提供了提高推荐系统性能的潜力。换句话说,在开发推荐系统时,神经网络被用于建模研究,以额外获取和补充数据,以解决协同过滤中的稀疏性和冷启动问题,或为了提高推荐系统本身性能的目的。

2.2.6. 推荐系统技术的研究趋势

图14和图15是可以用于分析推荐系统领域中使用的技术的研究趋势的可视化。图14可视化了根据本文设定的调查收集标准分析的论文中使用的推荐技术的数量。此外,图15可视化了根据年份的流程,每种推荐技术的使用情况。

图14和图15是可以用于分析推荐系统领域中使用的技术的研究趋势的可视化。图14可视化了根据本文设定的调查收集标准分析的论文中使用的推荐技术的数量。此外,图15可视化了根据年份的流程,每种推荐技术的使用情况。

图14. 在本文(2010-2020)研究期间,使用推荐技术的论文数量(频率)。

image

文本挖掘是推荐系统中必要的技术,用于分析用户在协同过滤模型(如基于内容的过滤推荐模型和混合推荐模型中的基于项目的协同过滤模型)中选择的项目的特征。这种技术可以用于各种推荐系统模型,并在医疗数据(医疗领域)、学术和旅游等领域不断需要,这些领域包含大量的文本信息。从图14可以看出,文本挖掘是推荐系统研究中积极使用的技术。此外,通过图15,可以确认文本挖掘在推荐系统研究中持续使用。另一方面,由于KNN的搜索过程效率低下,K值的选择问题,以及当数据量大时无法使用的问题,KNN在2010年后的推荐系统研究中使用最少[68]。聚类主要用于识别协同过滤模型中与用户相似的用户群体。当聚类用于基于内容的过滤和混合推荐模型时,主要用于旅游领域的推荐系统领域,用于分析位置数据的相似性。聚类在评估数据不是数字时,用于分析相似群体或相似项目非常有用。然而,目前,在各种应用程序和网络服务中,使用聚类作为推荐技术的频率正在下降,因为用户使用“喜欢”、“星级评分”或数值数据来评价项目。然而,从图15可以看出,聚类每年都在使用。MF是一种技术,它通过分析用户和项目评估的矩阵来搜索潜在因素,以表达用户对项目的喜爱。它可以分析不仅是特定项目的数值数据,还可以分析通过外部情境数据、鼠标流等收集的数据。由于通过分解由用户和项目评估组成的矩阵来计算,因此计算时间也可以减少。因此,使用MF的研究数量比KNN多,因为现有的KNN问题得到了补充。然而,随着使用大型服务器的企业数量的增加,需要一种新的推荐系统利用技术,以构建一个模型,以便比以前的MF技术更快、更准确地得出结果。智能手机、可穿戴设备和SNS的发展使得可以收集与用户相关的各种数据。换句话说,即使用户没有输入评价数据,用户在活跃时自然产生的身体数据、用户上传到SNS的帖子、关键词和图像都是可以在推荐系统中利用的数据。神经网络技术开始用于分析推荐系统研究中的各种类型的数据。特别是,神经网络技术专门用于图像分析和图像预测,可以更准确、更快地分析用户上传的图像或用户购买的项目。聚类技术也可以用来分析用户喜欢的旅行目的地的地图,并在附近的地方推荐用户喜欢的地方,但是神经网络可以通过学习用户喜欢的旅行目的地的各种特征来推荐用户的旅行目的地。因此,神经网络可以分析研究人员之前没有想到的各种项目的特征;在图14和图15中,可以看到这种技术是过去10年推荐系统研究中最常用的技术。

2.3. 应用领域

推荐系统已经在各种服务领域得到扩展和使用。在本研究中,我们打算分析上述各种推荐系统模型和技术是如何根据实际服务领域的特点和目的进行研究和利用的。根据收集的论文分析,使用推荐系统的服务领域被分类为七个主要类别:流媒体服务、社交网络服务、旅游服务、电子商务服务、健康护理服务、教育服务、学术信息服务。这七个主要类别是根据使用推荐系统的服务列表进行划分的,这些服务随着用户数量的增加或商业价值的增加而增加,以及在Google Scholar搜索引擎中搜索“推荐系统”作为关键词时出现的服务列表。图16是对本节将要描述的服务列表的视觉总结。

图16. 本研究分析的主要使用推荐系统的服务列表。
image

2.3.1. 流媒体服务

过去,用户主要通过电视或电影院消费视频内容,如电影。然而,最近,大量的视频内容通过流媒体平台如Netflix和YouTube消费。音频内容也从下载并消费文件到用户的本地设备,转变为通过Spotify等流媒体平台消费内容。随着媒体内容相关的流媒体服务的发展,推荐系统也得到了发展,因为需要减少用户在选择大量内容时的担忧,并提供量身定制的内容。一般来说,在流媒体服务领域,用户偏好数据以用户媒体内容服务使用历史数据为中心收集,并将用户偏好与流媒体服务拥有的所有内容进行映射,然后按最符合用户偏好的内容顺序生成推荐[36,84]。直到21世纪初,在流媒体服务领域,基于内容的过滤模型在推荐系统中被广泛使用。然而,在Web 2.0时代,由于在具有大量丰富内容数据的流媒体服务中只提供部分内容的效率低下,主要进行了考虑用户之间相似性的协同过滤方法的研究[85,86]。另一方面,流媒体服务的最大特点是信息按类型、艺术家和项目演员分类[87]。由于这些特点,文本挖掘技术在推荐流媒体服务的研究中主要被使用。在Odi´c等人的研究[88]中,对用户视频观看项目列表的属性进行了文本挖掘,以推荐用户想要的内容。在文本挖掘中,使用本体论不仅找到用户想要的电影项目,还考虑用户情境信息推荐项目。最近,流媒体服务用户的人数呈指数级增长。因此,为了确保服务的顺畅,需要减少计算用户偏好分析的过载。为了解决这个问题,进行了各种推荐技术和推荐过滤模型的研究,以改善流媒体服务。Barragáns-Martínez等人[36]使用奇异值分解(SVD)算法,在计算用户偏好时减少计算负载,以缓解可扩展性和数据稀疏性等主要问题。通过这个,提出了一个混合推荐模型,推荐符合用户偏好的电视节目。评估所提出模型的性能,得出MAE为0.78,并通过额外的用户测试,声称收到了积极的反馈。Walek等人[9]提出了一个混合推荐模型,使用SVD算法和模糊逻辑,基于用户喜欢的电影类型和电影评分,推荐符合用户偏好的电影。结果,Precision(81%)、Recall(83%)和F-measure(82%)的有希望的值被实现。由于音乐流媒体服务领域对用户偏好的影响比其他内容更大,因此需要对用户偏好进行高预测能力[89]。为此,进行了考虑用户数据和音频内容数据的基于内容的过滤推荐模型研究[80,90],以及考虑类似用户评价数据的协同过滤模型的混合推荐模型研究[86,90-93]。另一方面,在音乐流媒体服务领域,主要考虑反映用户口味的音频特征,如类型、旋律和节奏,进行音乐内容推荐的研究[94]。Wang等人[89]使用文本挖掘分析音乐项目的特性,提取音乐数据的节奏和旋律等音频信号特征,并推荐项目。本研究提出了一个使用神经网络推荐用户喜欢的音乐的混合推荐模型。通过比较本文提出的混合模型和一般基于内容的过滤模型的RMSE值,混合模型的RMSE为0.255,基于内容的过滤RMSE为0.270。因此,可以确认本文提出的混合模型显示出更好的推荐性能。McFee等人[87]提出了一项研究,通过协同过滤获得的类似用户组的数据样本内容分析,分析音频相似性。通过优化音频内容的每个音频信号的相似性分析结果,提出了一个能够推荐各种不太知名的音乐的混合推荐模型。换句话说,这项研究通过解决基于内容的过滤的弱点,即用户偏好项目范围狭窄,证明了推荐系统在音乐流媒体服务领域的可扩展性。

表5总结了根据本研究的研究标准收集的论文中,流媒体服务领域中使用的推荐系统研究。

表5. 流媒体服务领域的推荐系统研究。
image

2.3.2. 社交网络服务

在线社交网络服务(SNS)如Facebook、Instagram、Twitter和LinkedIn是巨大的数字社交交流平台,用户不仅可以记录他们的日常生活、爱好、兴趣等,还可以与[97]其他用户进行互动。随着SNS使用量的大幅增加,与用户相关的数据也大幅增加。

可以通过SNS收集用户通过帖子注册的内容信息。此外,还可以收集用户评价数据;除了评分数据,这些还包括各种类型的反馈数据,如点赞和评论。收集的数据不仅用于SNS内的推荐,还可以用于其他业务的推荐系统。换句话说,通过SNS收集的各种数据与推荐系统的进展密切相关。

由于SNS连接了各种非好友用户,因此可以利用与用户相似的其他用户的数据进行分析以产生推荐。因此,协同过滤和混合推荐模型很容易使用[98]。图17展示了主要在SNS推荐系统中使用的混合推荐模型的概念和原理结构。

图17. SNS推荐系统的混合推荐概览。

image

协同过滤主要用于根据SNS上与用户拥有类似好友列表的其他用户的行为模式推荐朋友或项目[3]。然而,协同过滤的脆弱性[99],如冷启动、稀疏性和灰羊问题需要解决。为此,进行了使用基于模型的协同过滤模型的SNS推荐系统研究[4,78]。已经进行了许多研究,以补充协同过滤的弱点,通过使用各种技术与推荐过滤模型相结合。例如,Kim等人[78]提出了TWILITE,这是一个基于协同过滤模型的Twitter关注者推荐系统,以及一个适合用户偏好的推文消息推荐系统。这项研究设计了一个使用协同过滤模型的矩阵分解的跟随者推荐系统。此外,通过基于LDA(潜在狄利克雷分配)的概率模型推荐适合用户偏好的推文消息,解决了协同过滤模型的弱点。通过实证评估TWILITE推荐算法与其他算法(如PMF、SoRec、RSTE和SocialMF)的性能,并比较结果,所提出的模型在召回率、精确度和平均命中率指数方面显示出比其他算法更高的值,证明了其出色的性能。同样,Yang等人[4]也研究了SNS推荐系统的协同过滤模型和矩阵分解技术。与Kim等人[78]的研究不同的是,通过所提出的信托模型,将与目标用户信任关系最高的用户定义为具有相似口味的用户,从而克服了模型的弱点。为了评估所提出模型的性能,将所提出的模型应用于四个大型数据集的结果与将其他推荐算法应用于相同数据集的结果进行了比较。性能指标包括精确度、召回率、F1分数和NDCG(归一化折扣累积增益)。结果表明,本文提出的算法的所有性能指标都表现出色。特别是当向冷启动用户推荐项目时,该模型的性能优于其他算法。在SNS领域,已经进行了许多关于混合推荐模型的研究。Amato等人[5]提出了一个混合推荐模型,可以根据用户互动和在多个SNS上生成的多媒体内容提供推荐。通过文本挖掘,分析用户偏好数据、可以关联用户情感的文本评论、用户过去的行为日志数据以及各种内容的用户评价数据。通过分析,将相似的项目聚类,为用户提供以社交网络为中心的推荐。在Capdevila等人[6]的研究中,使用文本挖掘技术分析了用户的地理位置和SNS的全文数据,以分析用户的偏好。根据分析结果,向用户推荐个性化项目。此外,本研究还提出了一个混合推荐模型,甚至可以向用户推荐地点。通过评估本文提出的混合模型的性能,通过AUC值,用户和项目对的推荐中,为0.6566,在非配对推荐中,为0.6044,显示出比现有的CB和CF模型更好的推荐性能。表6总结了根据本研究的研究标准收集的论文中,社交网络服务领域中使用的推荐系统研究。

表6. 社交网络服务领域的推荐系统研究。
image

SNS存储用户的签到数据和用户上传的帖子位置,旅游服务可以将其用作推荐旅游景点和路线的数据集[103,104]。旅游推荐系统分析这些SNS数据,并提供适合用户口味的旅游信息,从而提高用户满意度,增加旅游忠诚度,鼓励用户在旅行后返回旅游目的地。Kesorn等人[103]提出了一个个性化旅游信息服务(PTIS)框架,该框架根据用户在Facebook上的签到数据分析,向用户推荐定制的旅游景点。PTIS利用混合推荐模型向用户推荐旅游景点,以及用户的Facebook好友签到数据。该模型通过利用用户在使用服务过程中生成的数据(如历史和评价数据)不断更新用户档案,从而识别用户的偏好。因此,随着PTIS用户的增加,可以通过大量和多样化的数据提高推荐性能。在本文提出的推荐模型中,使用流行的旅游景点数据、Facebook好友数据和适当的访问时间数据,精确度平均为87.75%。此外,Sun等人[104]基于Flickr(一种照片分享SNS)上传的照片的地理标记数据进行空间聚类,以识别重要的旅游景点;然后按升序排列排名,并通过机器学习考虑旅游景点的受欢迎程度和道路长度数据,向用户推荐路线。对所提出的模型的性能进行了实证评估。所提出的模型推荐的旅游路线比仅考虑道路长度的最短路线短不到两倍。通过这个,展示了可以通过考虑道路上拍摄的图像、兴趣点(POI)和道路长度,向用户推荐反映用户偏好的最优旅游路线。图18可视化了这个推荐系统中的推荐原理,以提供总体受欢迎的旅游景点和最佳路线。

图18. 提供受欢迎的地标和最佳路线的旅游推荐系统的结构图。

image

另一方面,在旅游服务领域,有研究不仅利用游客的评价数据,还利用用户的当前情况数据来构建推荐系统模型进行推荐[2,105-106]。代表性地,Abbasi-Moud等人[2]提出了一个上下文感知旅游推荐系统,通过从游客对旅游景点的评价数据中提取上下文数据。本研究使用文本挖掘从旅游景点中提取包括时间、地点和天气数据在内的情境数据,并对评论数据进行文本情感分析和语义聚类,以确定用户偏好。通过将所提出的混合模型与类似系统中提出的其他系统进行比较,所提出的模型在精确度、召回率和F-度量指标上显示出最高的值。特别是,精确度值比之前的研究有所提高,因为首先,通过分析情感,从默认设置列表中过滤掉了用户不喜欢的词汇;其次,通过考虑几个上下文因素,推荐了适应当前情况的旅游景点。因此,可以根据用户的情况推荐首选的旅游景点。

Smirnov等人[105]提出了TAIST(旅游助手信息移动性系统),这是一个使用协同过滤模型的推荐系统。在这项研究中,通过分析游客的评价数据来识别用户的偏好,并创建一个旅游景点列表,然后进行推荐。接下来,基于推荐的旅游景点的本体论情境数据,考虑游客的可达性,提供最佳旅行路线和公共交通建议。通过1000名游客对文化遗产信息的访问进行用户评估,所提出的系统通过及时推荐文化遗产景点并在旅行期间支持游客,证明了其优越性。

表7总结了根据本研究的研究标准收集的论文中,旅游服务领域中使用的推荐系统研究。

表7. 旅游服务领域的推荐系统研究。
image

图18. 提供受欢迎的地标和最佳路线的旅游推荐系统的结构图。

image

另一方面,在旅游服务领域,有研究不仅利用游客的评价数据,还利用用户的当前情况数据来构建推荐系统模型进行推荐[2,105-106]。代表性地,Abbasi-Moud等人[2]提出了一个上下文感知旅游推荐系统,通过从游客对旅游景点的评价数据中提取上下文数据。本研究使用文本挖掘从旅游景点中提取包括时间、地点和天气数据在内的情境数据,并对评论数据进行文本情感分析和语义聚类,以确定用户偏好。通过将所提出的混合模型与类似系统中提出的其他系统进行比较,所提出的模型在精确度、召回率和F-度量指标上显示出最高的值。特别是,精确度值比之前的研究有所提高,因为首先,通过分析情感,从默认设置列表中过滤掉了用户不喜欢的词汇;其次,通过考虑几个上下文因素,推荐了适应当前情况的旅游景点。因此,可以根据用户的情况推荐首选的旅游景点。

Smirnov等人[105]提出了TAIST(旅游助手信息移动性系统),这是一个使用协同过滤模型的推荐系统。在这项研究中,通过分析游客的评价数据来识别用户的偏好,并创建一个旅游景点列表,然后进行推荐。接下来,基于推荐的旅游景点的本体论情境数据,考虑游客的可达性,提供最佳旅行路线和公共交通建议。通过1000名游客对文化遗产信息的访问进行用户评估,所提出的系统通过及时推荐文化遗产景点并在旅行期间支持游客,证明了其优越性。

表7总结了根据本研究的研究标准收集的论文中,旅游服务领域中使用的推荐系统研究。

表7. 旅游服务领域的推荐系统研究。
image

图18. 提供受欢迎的地标和最佳路线的旅游推荐系统的结构图。
image

另一方面,在旅游服务领域,有研究不仅利用游客的评价数据,还利用用户的当前情况数据来构建推荐系统模型进行推荐[2,105-106]。代表性地,Abbasi-Moud等人[2]提出了一个上下文感知旅游推荐系统,通过从游客对旅游景点的评价数据中提取上下文数据。本研究使用文本挖掘从旅游景点中提取包括时间、地点和天气数据在内的情境数据,并对评论数据进行文本情感分析和语义聚类,以确定用户偏好。通过将所提出的混合模型与类似系统中提出的其他系统进行比较,所提出的模型在精确度、召回率和F-度量指标上显示出最高的值。特别是,精确度值比之前的研究有所提高,因为首先,通过分析情感,从默认设置列表中过滤掉了用户不喜欢的词汇;其次,通过考虑几个上下文因素,推荐了适应当前情况的旅游景点。因此,可以根据用户的情况推荐首选的旅游景点。

Smirnov等人[105]提出了TAIST(旅游助手信息移动性系统),这是一个使用协同过滤模型的推荐系统。在这项研究中,通过分析游客的评价数据来识别用户的偏好,并创建一个旅游景点列表,然后进行推荐。接下来,基于推荐的旅游景点的本体论情境数据,考虑游客的可达性,提供最佳旅行路线和公共交通建议。通过1000名游客对文化遗产信息的访问进行用户评估,所提出的系统通过及时推荐文化遗产景点并在旅行期间支持游客,证明了其优越性。

图19. 通过在线-离线数据组合扩展基于项目的协同过滤的推荐系统。
image

表8. 电子商务服务领域推荐系统研究。
image

2.3.5. 健康护理服务
随着对健康兴趣的增加,随着技术与智能手机的兼容性提高,智能可穿戴设备的使用用户数量开始增加,它们的使用便利性也得到了提高[123]。这些可穿戴设备可以有效地监测用户的生物状态[123]。智能手表作为代表性的可穿戴设备,定期测量用户的身体状况数据[124],帮助没有专业医疗知识的用户预防疾病,并实现自我诊断。这些可穿戴设备收集大量的用户生物数据,通过特定的身体情况帮助疾病相关研究或适当的诊断[125],此外,它在推荐治疗的研究中也有所帮助[126]。健康相关的推荐系统研究分析了患者的症状模式与疾病之间的关系,为用户提供更好的治疗选择的洞察[127,128]。在这项研究中,根据系统应用的目的,将健康护理服务领域中使用的推荐系统细分为健康推荐系统领域和e-health领域,后者支持专业治疗。

图20. 疾病诊断和治疗推荐系统的工作流程。
image

在专业治疗领域,健康推荐系统的主要目标是根据各种类型疾病的各种症状和每个疾病阶段为患者提供适当的治疗方法。为此,健康推荐系统分析患者的信息和疾病特征,向患者提供准确的疾病诊断,并根据诊断出的疾病推荐适当的治疗方法。为此,经常使用基于内容的过滤模型,因为需要分析患者的信息和疾病特征。Duan等人[129]的研究是使用基于内容的过滤模型的推荐系统研究的代表。在这项研究中,通过创建项目数据集的前缀树结构进行文本挖掘,以推荐治疗计划。因此,进行了一项研究,通过组合项目排名列表,推荐提供临床决策支持、护理教育和印象质量管理的病人护理管理计划。Chen等人[130]将患者的疾病分为阶段,并根据每个阶段,提出了一个疾病诊断和治疗推荐系统(DDTRS),该系统推荐准确的疾病诊断和治疗计划。DDTRS对从患者检查报告中提取的大型历史疾病诊断和治疗数据集进行聚类。此外,通过应用关联分析算法,搜索与用户相似的疾病、诊断和治疗数据的内容信息的相似性,并推荐准确的疾病诊断和有效治疗计划。五个因素,有效性、chrononergy、无害副作用、经济性和患者满意度,被用作评估DDTRS提供的治疗效果推荐质量的指标。在指标方面,通过医生反馈进行评估。有效性指数平均值为4.33,比其他四个指数高。经济指数排名最低,为3.24。这通常意味着高质量的治疗推荐具有高效治疗效果、大的chrononergy和少数副作用,实验结果表明,所提出的系统提供了高质量的治疗推荐。图20显示了DDTRS的两个核心模块,疾病-症状聚类分析模块和疾病诊断和治疗推荐模块的工作流程,这是Chen等人[130]提出的。

此外,在健康推荐领域,可以向具有类似症状的其他患者推荐类似的治疗方法。协同过滤模型经常用于研究健康推荐系统,这些系统推荐与患者症状相似的其他患者群组。Thong等人[131]的研究在计算患者之间的相似性后,得出了关系数据。基于这样得出的关系数据,推荐了一个根据疾病特征对患者进行分组的医学诊断推荐系统。在这项研究中,首先找到了与被诊断患者具有类似疾病特征的患者群组,然后使用协同过滤推荐模型通过检查相应患者群组的医疗诊断记录来诊断患者。通过评估和比较所提出的算法HIFCF与IFCF、DAVIS、HASAN、DE、Samuel、SZMIDT算法的MAE值,HIFCF的平均MAE值为0.395,比其他算法在所有情况下都低。第二低的DE算法的平均MAE值为0.481,表明存在差距。因此,所提出的推荐算法的准确性得到了验证。

总结

这篇文章全面回顾了推荐系统在多个服务领域的研究趋势,包括流媒体、社交网络、旅游、电子商务、健康护理和教育服务。文章分析了从2010年到2021年的研究论文,探讨了推荐模型、技术和应用领域的发展趋势。研究发现,推荐系统的研究与实际应用服务领域的业务增长相互作用,特别是在协同过滤、内容推荐和混合推荐模型方面。文章还讨论了推荐系统在处理用户偏好、改善用户体验和支持个性化服务方面的潜力,以及在不同服务领域中推荐系统如何帮助用户做出更好的选择。

写在结尾

好了,今天的论文就读到这了,明天见!

posted @   想你时风起  阅读(619)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
点击右上角即可分享
微信分享提示