【论文随笔】深度推荐系统的自动化_一项调查(Automl for deep recommender systems_ A survey)
前言
今天读的论文为一篇于2021年1月发表在ACM Transactions on Information Systems的论文,本文是一篇关于深度推荐系统自动化机器学习(AutoML)的综述,由Ruiqi Zheng、Liang Qu、Bin Cui、Yuhui Shi和Hongzhi Yin共同撰写。文章首先提出了一个抽象概念——AutoML for Deep Recommender Systems(AutoRecSys),用以描述其构建模块,并将其与传统的AutoML技术和推荐系统区分开来。接着,文章提出了一个分类框架,包括特征选择搜索、嵌入维度搜索、特征交互搜索、模型架构搜索以及其他组件搜索,特别强调了搜索空间和搜索策略,因为它们是连接每个类别内所有方法的共同线索,并使实践者能够分析和比较不同的方法。最后,文章提出了四个未来研究的有前景的方向,旨在引领这一研究线的发展。
文章首先介绍了推荐系统在信息过滤中的重要性,并指出深度推荐系统通过捕捉非线性信息和用户-项目关系来展示卓越的性能。然而,深度推荐系统的设计严重依赖于人类经验和专家知识。为了解决这个问题,引入了AutoML来自动搜索深度推荐系统不同部分的合适候选者。文章通过文献综述,对这一领域的研究进行了全面回顾。
在介绍部分,作者详细描述了深度推荐系统的四个主要组成部分:输入层、嵌入层、交互层和预测层,并讨论了这些组件在模型性能中的作用。文章强调,尽管深度推荐系统取得了有希望和鼓舞人心的结果,但它们在设计上需要人类经验,并且缺乏对不同组件的精心设计会导致次优性能。
文章的第二部分对现有方法进行了分类,这些方法主要关注于自动设计推荐模型的输入组件。第三部分介绍了深度推荐系统的背景知识,包括常用的符号和神经架构搜索(NAS)中启发式方法。第四部分到第八部分分别介绍了分类法中的五个类别:自动化特征选择搜索、自动化嵌入维度搜索、自动化特征交互搜索、自动化模型架构搜索和自动化其他组件搜索。第九部分对AutoRecSys进行了横向比较和实证分析。最后,在第十部分讨论了未来的研究方向,并在第十一部分得出结论。
文章的主要贡献在于提出了AutoML for Deep Recommender Systems的抽象概念,这是首次系统地回顾了AutoRecSys的文献。其次,文章引入了一个分类法,将AutoML方法分为推荐系统的不同类别。此外,文章还对现有工作提出了自己的见解,并讨论了它们的潜在缺陷。最后,文章提出了四个未来研究的有前景的方向,旨在为AutoML for deep recommender systems的新用户提供经过验证和实用的技术。
《ACM Transactions on Information Systems》(ACM TIS)是由美国计算机协会(Association for Computing Machinery, ACM)出版的一份学术期刊。该期刊专注于信息系统领域的研究,包括但不限于信息系统的设计、实施、使用和管理,以及这些系统对社会和组织的影响。
ACM TIS通常发表高质量的研究论文,涵盖了信息系统的各个方面,如数据库系统、人机交互、数据挖掘、知识管理、企业系统、网络技术、安全和隐私等。该期刊旨在为信息系统领域的研究人员、学者和专业人士提供一个分享和讨论最新研究成果的平台。
ACM TIS的文章通常经过严格的同行评审过程,以确保发表的研究具有高度的学术价值和实践意义。期刊的影响力和学术地位在信息系统领域内是公认的,是该领域内重要的学术资源之一。
要引用这篇论文,请使用以下格式:
[1]Zheng R, Qu L, Cui B, et al. Automl for deep recommender systems: A survey[J]. arv preprint arv:2203.13922, 2022.
摘要
本文是关于深度推荐系统中自动化机器学习(AutoML)的综述。作者首先提出了一个关于AutoML在深度推荐系统中的应用(AutoRecSys)的抽象概念,并区分了它与传统AutoML技术和推荐系统的不同。其次,文章提出了一个分类框架,包括特征选择搜索、嵌入维度搜索、特征交互搜索、模型架构搜索以及其他组件搜索。特别强调了搜索空间和搜索策略,因为它们是连接每个类别内所有方法的共同线索,并使实践者能够分析和比较不同的方法。最后,文章提出了四个未来有前景的研究方向,旨在引领这一研究线的发展。通过这项工作,作者旨在为AutoML在深度推荐系统领域的新用户提供经过验证和实用的技术,并讨论现有方法的潜在缺陷。
文章首先提出了AutoML for Deep Recommender Systems(AutoRecSys)的抽象概念,描述了其构建模块,并与传统AutoML技术和推荐系统进行了区分。接着,文章提出了一个分类框架,包括特征选择搜索、嵌入维度搜索、特征交互搜索、模型架构搜索以及其他组件搜索,特别强调了搜索空间和搜索策略的重要性。最后,文章提出了四个未来研究的有前景的方向,旨在推动这一领域的研究发展。通过全面回顾相关文献,文章为AutoRecSys的新用户提供了经过验证和实用的技术,并讨论了现有方法的潜在缺陷。
引言
推荐系统在信息过滤中扮演着重要角色,并已被应用于多种场景,例如电子商务和社交媒体。随着深度学习的兴起,深度推荐系统通过捕捉非线性信息和用户-项目关系展现出卓越的性能。然而,深度推荐系统的设计严重依赖于人类经验和专家知识。为了解决这个问题,引入了自动化机器学习(AutoML)来自动搜索深度推荐系统不同部分的合适候选者。本综述对这一领域的文献进行了全面回顾。首先,我们提出了一个抽象概念AutoML for deep recommender systems(AutoRecSys),描述了它的构建模块,并将其与传统的AutoML技术和推荐系统区分开来。
其次,我们提出了一个分类框架,包含特征选择搜索、嵌入维度搜索、特征交互搜索、模型架构搜索以及其他组件搜索。此外,我们特别强调了搜索空间和搜索策略,因为它们是连接每个类别内所有方法的共同线索,并使实践者能够分析和比较各种方法。最后,我们提出了四个未来有前景的研究方向,这些研究方向将推动这一研究线的发展。
由于互联网的快速扩张,信息量急剧增加。用户在众多选项中找到自己感兴趣的内容变得具有挑战性。推荐系统被应用于不同的场景,如电子商务和社交媒体,以改善用户体验。用户依赖推荐系统帮助他们处理信息过载问题,并在海量选项中找到他们感兴趣的内容。
一个有效的推荐系统基于用户以往的参与情况预测用户的偏好。在过去的几年中,推荐系统的主要模型框架已经从邻域技术发展到表示学习。基于邻域的方法主动推荐与消费者之前互动过的物品相似的物品。邻域技术由于其可解释性和简单性,在实际应用中被证明是有效的。相比之下,基于表示的方法在潜在嵌入空间中表示用户和物品。
作为最具代表性的基于表示的方法,矩阵分解方法旨在通过降维处理数据稀疏性问题。随着深度学习的兴起,深度神经网络(DNN)生成更复杂、更丰富的表示。理论上,单层感知器可以模仿任何函数,只要有足够计算资源和数据。深度推荐系统整合了深度学习技术,以捕捉非线性信息和用户-项目关系,因此在工业界和学术界都受到了青睐。深度推荐系统通常包含四个组件。输入层从原始数据生成二进制特征。嵌入层将二进制特征映射到低维特征空间。
交互层找到有助于模型性能的强大特征交互。预测层生成模型的预测。第2节将详细介绍这四个组件的数学形式。尽管深度推荐系统显示出有希望和鼓舞人心的结果,但它们严重依赖于人类经验,缺乏对不同组件的精心设计会导致次优性能。例如,在嵌入层,大多数现有方法简单地为所有特征分配统一的嵌入维度,这会导致资源消耗、计算成本和模型表示能力等问题。在交互层,计算所有2^A阶特征交互,这会引入过多的噪声到模型中,并使训练过程复杂化。迫切需要自动设计深度推荐系统不同组件的方法,以减轻人类繁重和耗时的工作。
最近,自动化机器学习(AutoML)作为自动化某些组件或整个机器学习流程的有前途的方式出现了。与传统推荐系统相比,AutoML for deep recommender systems(AutoRecSys)以数据驱动和任务特定的方式来输出表现良好的深度推荐系统,通过自动设计不同的对手并减轻人类努力。它更能在遇到各种应用场景时发现表现良好的模型,并超越传统方法。它专注于由紧凑搜索空间和高效搜索策略带来的挑战,而不是开发单一的推荐系统模型。如图1所示,AutoML自动设计计算机版本应用中的表示组件,如池化、卷积和层数。
然而,AutoRecSys不仅仅是AutoML技术的简单应用,而是面临着独特的挑战。大多数现有的AutoML方法主要关注表示学习组件的自动设计,而输入组件受到的关注较少,因为大部分研究是在图像理解问题上进行的,图像的像素作为输入组件不需要从数据中创建特征,因为它们已经是浮点形式。然而,对于深度推荐系统,输入组件如嵌入矩阵是内存消耗的主要因素,与其他参数如偏差和权重相比。如何从原始数据中适当地学习特征显著影响其他组件,并对最终模型性能至关重要。AutoML没有揭示从数据中学习特征的通用或原则性方法,在这方面只取得了有限的进展。在工业界,AutoRecSys已被部署在大规模的实际应用中,以提供有区分力和信息丰富的推荐结果。例如,华为诺亚方舟实验室实施了AutoFIS来自动搜索有益的特征交互,并在华为应用商店推荐任务的10天在线A/B测试中展示了显著的改进。
鉴于AutoRecSys的显著增长率,我们认为在统一和可理解的范式内综合和描述代表性技术是至关重要的。据我们所知,关于深度推荐系统的自动化机器学习最相关的调查论文是一篇短文。我们的工作与上述工作有以下区别:(1)我们的调查包括了来自顶级会议的更多代表性AutoRecSys方法,包括MDE(ISIT'2021)、SSEDS(SIGIR'2022)、𝐴?0-SIGN(AAAI'2021)、HIRS(KDD'2022)、NASR(WWW'2022)、OptInter(ICDE'2022)。(2)我们的工作是第一篇全面回顾AutoRecSys并提出分类法的调查,该分类法于2022年3月25日在Arxiv上发表。(3)我们的工作包括搜索空间复杂性和实验,这些横向比较了AutoRecSys方法的数学和实证分析。(4)我们总结了AutoRecSys的核心步骤,并详细分析了AutoRecSys方法的优势和缺陷,而不是一般性地介绍每个模型。
本调查论文的贡献有三个方面:
-
我们提出了一个抽象概念AutoML for Deep Recommender Systems(AutoRecSys),阐明了其过程和与传统AutoML和传统推荐系统的区别。据我们所知,这是第一次提出这个抽象概念并系统地回顾了AutoRecSys的文献。
-
第二个贡献是引入了一个分类法,用于分类推荐系统的AutoML方法。它包括特征选择搜索、嵌入维度搜索、特征交互搜索、模型架构搜索和其他组件搜索,如图2所示。此外,我们特别强调了搜索空间和搜索策略,因为它们是连接每个类别内所有方法的共同线索,并使实践者能够分析和比较不同的方法。
-
我们对现有工作提出了自己的看法,并讨论了它们的潜在缺陷。此外,我们提出了四个未来有前景的研究方向,引领这一研究线的发展。本调查论文旨在为AutoML for deep recommender systems的潜在新用户提供经过验证和实用的技术。
由于我们计划调查这一领域的广泛技术,我们无法涵盖每个方法的细节,也不声称包含所有可用的研究。相反,我们倾向于分析和总结共同点以及方法的多样性。因此,AutoRecSys的主要研究方向可以被概述。本文的其余部分组织如下。
第2节描述了我们如何对方法进行分类。第3节介绍了深度推荐系统的背景知识,以及受神经架构搜索(NAS)启发的AutoML在深度推荐系统中常用的技术。从第4节到第8节,分别介绍了分类法中的五个类别:自动化特征选择搜索、自动化嵌入维度搜索、自动化特征交互搜索、自动化模型架构搜索和自动化其他组件搜索。在第9节中,对AutoRecSys进行了横向比较和实证分析。在第10节中讨论了未来的发展方向,然后在第11节中得出结论。
CLASSIFICATION OF APPROACHES
在本节中,我们描述了如何对现有方法进行分类。我们的目标是分析不同的方法并确定它们的相似之处或区别。我们从顶级计算机科学期刊或会议上选择代表性方法,如KDD和WWW。这些论文的发表数量如图3所示。在本节中,我们描述了决定我们分类的分析问题,然后是我们的文献调查过程。
2.1 分析问题
我们的指导问题是如何在各种场景和数据中自动设计深度推荐系统的不同组件。在指导问题下,我们的调查论文关注以下三个问题。(1)哪些模型组件是自动设计的?(2)如何设计紧凑的搜索空间,使其足够通用以包含流行的手工制作模型,同时又不至于太通用以至于阻碍新模型搜索的成功?(3)如何设计搜索算法,以便在探索和利用之间取得平衡,以提高搜索效率和有效性?
2.2 文献调查过程
为了全面回答上述分析问题,我们回顾了一系列讨论深度推荐系统中的AutoML的论文。实施了比较和迭代的文献回顾过程。在第一轮中,根据它们对我们分析问题的回答,检查并总结了一组出版物。我们发现许多论文自动设计相同的组件并遇到类似的挑战。因此,我们将这些论文归为同一类别。第二轮关注同一类别内的类似挑战,并分析处理这些挑战所提出的方法。在第三轮中,我们对出版物进行排序并扩大了我们的出版物集。因此,进行了广泛的文献回顾,其中提炼出的分类法包括各种论文。
BACKGROUNDS
3.1 深度推荐系统
表1中列出了常用的符号。深度学习已被广泛应用于推荐系统,因为它能够捕捉非线性信息和用户-项目之间的关系。深度推荐系统通常包含四个层次,如图4所示:输入层、嵌入层、交互层和预测层。我们将对上述组件进行介绍。
3.1.1 输入层
输入数据通常包含三种类型的信息,即用户档案(如用户ID、年龄、城市等)、项目档案(如类别、项目ID等)和上下文信息(如位置、星期几等)。深度推荐系统的输入数据通常以表格形式存在,即包含多个字段的数值、分类或多值特征,而不是其他形式的信息,如文本或图像。表格数据的样本量通常非常庞大,具有高度稀疏的特征空间。常见的做法是对原始特征应用独热编码或多热编码,将二进制特征映射到高维特征空间。对于分类特征字段𝐴?,通过独热编码得到二进制特征x𝐴?。对于数值特征字段,数值被分桶(例如[0, 0, 0, 1]对于𝐴?𝐴?𝐴? ∈ [0, 14])或通过训练决策树(例如GBDT [35]),并编码为分类特征字段。多值字段通过多热编码进行编码。二进制特征的连接包括一个用户-项目交互数据实例x = [x1, x2, · · ·, x𝐴?] [133]:
[1, 0, · · ·, 1]
x1: 用户ID
[0, 1, · · ·, 0]
x2: 年龄
· · · · · ·
其他字段
[1, 1, 1, · · ·, 0]
x𝐴? : 项目ID
其中𝐴?是特征字段的数量,x𝐴?是𝐴?𝐴?ℎ特征字段的二进制向量。
3.1.2 嵌入层
通常,二进制向量是高维且稀疏的,可以通过特征嵌入转换为低维且密集的向量。嵌入过程如下:对于从分类或数值特征字段生成的二进制特征x𝐴?,通过嵌入矩阵E𝐴? ∈ R𝐴?×𝐴?𝐴?将𝐴?𝐴?ℎ二进制特征转换为压缩的特征嵌入e𝐴?。对于𝐴?𝐴?ℎ特征字段,𝐴?是预定义的低维嵌入的大小,𝐴?𝐴?是独特特征值的数量。对于多值特征字段ℎ,Eℎ是嵌入矩阵。嵌入通过以下方式获得:
eℎ = Eℎ[xℎ1, xℎ2, · · ·, xℎ𝐴?ℎ] (2)
其中每个特征都表示为一个序列,xℎ𝐴?ℎ作为独热编码的二进制向量,𝐴?ℎ是序列的最大长度。嵌入eℎ ∈ R𝐴?×𝐴?ℎ可以通过均值或求和池化聚合到一个𝐴?维向量。嵌入层的输出是所有特征嵌入的连接:
E = [e1, e2, · · ·, e𝐴?] (3)
3.1.3 交互层
在原始特征映射到低维空间后,提出了一个交互层来捕获不同特征字段之间的特征交互信息。有两种类型的特征交互:显式特征交互和隐式特征交互。显式特征交互在特定特征之间实现交互函数,这些交互是可解释的,人们知道哪些特征在模型性能中起着重要作用。隐式特征交互使用多层感知器(MLP)从所有特征嵌入中学习非线性信息。根据[56]中的传统定义,以及[71]中提出的数学定义,显式𝐴?𝐴?ℎ阶(1 ≤ 𝐴? ≤ 𝐴?)特征交互的结果是通过特征嵌入组P = {e𝐴?}𝐴?=𝐴?1,𝐴?2,···,𝐴?𝐴?获得的:
eH = 𝐴?(𝐴?−1)(···(𝐴?(1)(e𝐴?1, e𝐴?2)), · · ·, e𝐴?ℎ) (4)
其中P中的每个𝐴?𝐴?都是从所有特征嵌入的连接𝐴?中搜索得到的,𝐴?(𝐴?−1) (·)是一个特征交互函数,通常由人类专家设计。例如,因子分解机(FM)[11, 89]通过特征嵌入的内积来明确建模2𝐴?𝐴?阶特征交互,并定义1𝐴?𝐴?阶交互为二进制向量x𝐴?。在这种情况下,交互层的输出𝑨?𝐴?𝐴?将是FM的输出:
𝑨?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?𝐴? = < 𝑨?, x > + 𝐴? ∑=1 𝐴? ∑=𝐴?+1 < e𝐴?, e𝐴? > (5)
其中𝑨?是二进制向量x的权重,e𝐴?是𝐴?𝐴?ℎ字段的低维特征嵌入,< e𝐴?, e𝐴? >是向量e𝐴?和向量e𝐴?的内积。理论上,FM可以通过相应特征嵌入的内积明确建模任何阶的特征交互。然而,高阶(𝐴?𝐴?ℎ阶,𝐴? ≥ 3)特征交互会随着𝐴?的增加而引入指数级增长的计算。多层感知器(MLP)可以通过全连接层和激活函数提取非线性信息,整合不同阶的特征交互和各种类型的嵌入。每一层𝑨?𝐴?+1的输出是:
𝑨?𝐴?+1 = 𝜋?(𝑨?𝐴?𝑨?𝐴? + 𝑨?𝐴?) (6)
其中𝜋?(·)是激活函数,𝑨?𝐴?是权重,𝑨?𝐴?是前一层的输出,𝑨?𝐴?是偏置。在许多手工制作的模型中,MLP的输出与其他嵌入结合后作为多交互集合层的输出。DeepFM [29]将2𝐴?𝐴?阶特征交互𝑨?𝐴?𝐴?的输出与嵌入矩阵的MLP输出连接起来,表示为𝑨?𝐴?𝐴? = 𝐴?𝐴?𝐴?𝐴?𝐴?𝐴?(𝑨?𝐴?𝐴?, 𝐴?𝐴?𝐴?(e))。IPNN [86]将显式特征交互和嵌入矩阵输入到MLP,并将特征交互层的输出表示为𝑨?𝐴?𝐴? = 𝐴?𝐴?𝐴?(𝑨?𝐴?𝐴?, e))。
总结
本文是一篇全面的综述,探讨了自动化机器学习(AutoML)在深度推荐系统中的应用。文章首先提出了AutoML for Deep Recommender Systems(AutoRecSys)的概念,这是一个新兴领域,旨在通过自动化技术来设计和优化推荐系统的不同组件。作者们详细讨论了深度推荐系统的四个关键组成部分:输入层、嵌入层、交互层和预测层,并指出了这些组件在现有研究中的局限性,特别是在需要大量人类经验和专业知识的情况下。
文章接着介绍了一个分类框架,该框架将AutoML方法分为五个主要类别:特征选择搜索、嵌入维度搜索、特征交互搜索、模型架构搜索和其他组件搜索。这个框架不仅帮助研究者理解现有方法的多样性,还强调了搜索空间和搜索策略的重要性,因为它们是连接不同方法的关键,并允许实践者分析和比较各种方法。
在对现有文献进行深入分析的基础上,作者们提出了四个未来研究方向,这些方向有望推动AutoML在深度推荐系统中的应用。这些方向包括处理新特征的冷启动问题、长尾特征的嵌入维度分配、理论分析以确保搜索策略的有效性、以及在设备上的推荐系统自动化设计等。
文章还对AutoRecSys的代表性方法进行了横向比较,评估了它们在点击率预测(CTR)和Top-K推荐任务上的性能。通过这些比较,作者们揭示了不同方法的优势和局限性,并讨论了模型效率、内存消耗和训练时间等实际应用中的关键因素。
最后,文章强调了AutoML在推荐系统中的重要性,并指出了在实际应用中部署这些模型时需要考虑的挑战。作者们提出了一系列开放性问题,这些问题将指导未来的研究工作,以进一步提高推荐系统的性能和效率。总体而言,这篇文章为AutoML在深度推荐系统中的应用提供了一个全面的视角,并为未来的研究提供了宝贵的指导和启示。
写在结尾
好了,今天的论文就读到这了,明天见!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异