论文笔记

研究点

  1. 社区搜索

  2. 异构图

  3. 异构图 为啥不充分利用属性

  4. 元路径原来是预定义的 现在可以个性化元路径

  5. 跨社区高阶属性

  6. HGNN推广到复用图?

  7. 如何在深度学习框架中学习动态HG嵌入

  8. 另一个特性是HG的不确定性,即HG的生成通常是多方面的,并且HG中的节点包含不同的语义。传统上,学习向量嵌入通常无法很好地捕捉这种不确定性。

    高斯分布可能天生代表不确定性性质[139],[140],这在很大程度上被当前的HG嵌入方法所忽略。这为改进HG嵌入提供了一个巨大的潜在方向。

  9. GNN会过度平滑 那么HGNN?

  10. HGNN的自监督学习

  11. 另一个重要方向是HGNN的预训练[148],[149],[150]。如今,HGNN是独立设计的,即所提出的方法通常适用于某些特定的任务,但没有充分考虑不同任务之间的转移能力。当处理新的HG或任务时,我们必须从头开始训练HG嵌入方法,这很耗时,并且需要大量的标签。在这种情况下,如果有一个预训练的具有强泛化能力的HGNN,可以用很少的标签进行微调,则时间和标签消耗将减少。

  12. 有一些关于同构图嵌入公平性的研究[151],[153]。然而,HG的公平性仍然是一个悬而未决的问题,这是未来的一个重要研究方向。
    HG嵌入的弱点是什么以及如何增强它以提高鲁棒性还有待进一步研究。
    可解释的HG嵌入 新兴的去纠缠学习[155],[156],它将嵌入划分到不同的潜在空间中,以提高可解释性

  13. 如何设计一个有效的双曲型异质GNN仍然具有挑战性,这可能是另一个研究方向

  14. 异构图结构学习。在当前的HG嵌入框架下,HG通常是预先构建的,这与HG嵌入无关。

    这可能导致输入HG不适合于最终任务。HG结构学习可以进一步与HG嵌入相结合,从而相互促进。

  15. 精读一两篇

已找会议

2022

  1. kdd
  2. sigir
  3. www

相关概念

最大化排名度量(Maximizing Rank Metric)

最大化排名度量(Maximizing Rank Metric)是指在信息检索或推荐系统中,根据用户的查询或者历史行为等信息,将所有相关文档或物品按照其相关度或者兴趣程度进行排序,并尽可能将用户感兴趣的文档或物品排在前面的过程。通常使用的度量指标有 Precision、Recall、F1-score、NDCG、MAP 等。在实际应用中,最大化排名度量对于提高系统的准确性和用户体验至关重要。

指标计算

  • Precision(精确率):表示检索出的相关文档(或物品)占检索出的所有文档(或物品)的比例。用公式表示为:Precision = TP/(TP + FP),其中 TP 表示真正例,FP 表示假正例。

  • Recall(召回率):表示检索出的相关文档(或物品)占相关文档(或物品)总数的比例。用公式表示为:Recall = TP/(TP + FN),其中 TP 表示真正例,FN 表示假反例。

  • F1-score:综合考虑 Precision 和 Recall 的度量指标,用于平衡 Precision 和 Recall 的取值。F1-score 是 Precision 和 Recall 的调和平均值,用公式表示为:F1-score = 2 * (Precision * Recall)/(Precision + Recall)

  • NDCG(归一化折损累计获益):表示推荐系统排序质量的度量指标。NDCG 考虑了文档或物品相关度的级别差异,并对推荐结果进行折损,使用不同的折损函数可以得到不同版本的 NDCG。NDCG 值越高,代表排序质量越好

  • MAP(平均准确率):也是用于评估推荐系统排序质量的度量指标,它是推荐系统的平均查准率。MAP 考虑了推荐列表中所有相关文档(或物品)的位置,并计算所有位置上的查准率,最后对其取平均值。MAP 值越高,代表排序质量越好。

    MAP的计算过程如下:

    1. 对于每个查询,将相关文档列表按照相关度从高到低排序。
    2. 接着,计算召回率和查准率并绘制出召回率-查准率曲线,在这个曲线下计算面积作为该查询的平均准确率(Average Precision,AP)。
    3. 最后,将所有查询的平均准确率取平均作为整个数据集的MAP值。

挑战性(不可微)

排名不可微是指排名度量函数通常是离散的,它们将排名的整数值映射到某种性能度量(例如AP、NDCG等)。这些函数通常在不同排名位置处都有突变(即阶跃函数),其梯度为零或未定义,因此它们在某些排名变化的情况下是不可微的。这使得最优排名问题更具挑战性。

因为大多数机器学习算法都是基于连续函数的,所以不可微分的度量函数不适合直接用于训练机器学习模型。为了解决这个问题,可以使用一些技巧来近似优化不可微度量函数,例如使用神经网络来拟合度量函数,使用插值方法来估计排名度量的梯度等等。
此外,还可以考虑使用间接优化策略。例如,将排名度量作为损失函数的上界,通过最小化该上界来最大化排名度量。这个上界可以通过一些特定的分析方法来计算,例如LambdaRank,ListNet等。这些方法被广泛应用于各种排名问题,并取得了很好的效果。

PPO(近端策略优化)

PPO是近年来广泛使用的一种强化学习算法,全称为Proximal Policy Optimization,即近端策略优化。它是由OpenAI提出的一种基于Actor-Critic结构的强化学习算法。

PPO采用了一种近端优化策略,即在每个更新步骤中对旧策略和新策略之间的距离进行约束,从而保证算法的稳定性。这种方法在处理高维度连续动作空间的任务时表现良好,并且在许多强化学习竞赛中获得了最好的结果。

具体来说,PPO通过定义一个目标函数,即PPO-Clip目标函数,来尽可能地优化策略。该目标函数包含两部分:一个是策略梯度项,用于最大化累积奖励;另一个是近端剪切项,用于限制新策略与旧策略之间的差异。

此外,PPO还采用了一些技巧来提高算法的收敛速度和稳定性,例如:多次采样、重要性采样比率削减、基于K-L散度的正则等。

在实际应用中,PPO已被广泛应用于各种任务,例如棋类游戏、机器人控制、自动驾驶等。并且由于其简单性和稳定性,PPO在强化学习中已成为一种重要的基准算法。

反向索引

反向索引是一种用于文本检索的数据结构,它将每个单词与包含该单词的文档列表关联起来,并且支持通过单词快速找到相关文档的查询操作。反向索引可以优化检索效率,但是,传统的反向索引通常基于关键词匹配实现,难以很好地处理产品搜索中的具体属性和特征等信息。

启发式评分函数

启发式评分函数是一种广泛应用于信息检索中的算法,通常用于计算查询与文档之间的相关性得分。Okapi BM25是一种常见的启发式评分函数,其主要基于文档的词频(TF)和逆文档频率(IDF)来计算文档的得分。启发式评分函数的目的是根据查询和文档之间的匹配程度,给文档一个相关性得分,以便对搜索结果进行排序。但是,启发式评分函数往往只会考虑简单的词汇匹配,而忽略了其他重要的因素,这可能导致产品搜索中的相关性评估出现偏差。

TF-IDF

image-20230423105830228

度量学习

基于度量学习的推理是图遍历的有效替代方案,主要原因是:在传统基于图遍历的推理中,需要对整个知识图谱进行遍历,计算每个实体之间的关系,因此时间复杂度较高;而基于度量学习的推理,则是通过学习数据对象间的距离矩阵来表示它们之间的关系,从而避免了对整个图谱的遍历。因此,基于度量学习的推理可以大大减少推理时间,更适用于大规模知识图谱的推理和应用。

度量学习是一种用于进行特征学习和相似度计算的技术,其目标是根据已有数据,通过学习一种距离度量或相似度量,来表示不同数据对象之间的相似性或距离。度量学习的核心思想是:通过学习一个好的距离函数,可以使得同类别的样本之间的距离尽量小,异类别的样本之间的距离尽量大。度量学习可以应用于多种领域,如人脸识别、推荐系统、分类和聚类等任务。常用的度量学习方法包括欧氏距离、马氏距离、余弦相似度等。

Cascade ranking(级联排名)

Cascade ranking是一种搜索引擎中常用的排序方法。它把所有的候选结果按照一定的顺序依次传递给不同的排序模型,最终将多个模型的排序结果进行加权求和得到最终的排序结果。

EBR模型

EBR模型是指基于用户行为的推荐模型,全称为Event-Based Recommendation(事件驱动的推荐)。该模型利用用户在系统中的操作行为,如点击、加入购物车、购买等,对用户进行画像和行为分析,从而给出个性化的推荐结果。该模型以用户行为数据作为输入,通过分析和建模用户行为与商品之间的关系,预测用户可能感兴趣的商品,具有较高的推荐准确度和实时性。

PageRank

PageRank是由Google创始人Larry Page和Sergey Brin在斯坦福大学开发的一种用于评估网页重要性的算法。该算法通过计算网页被其他网页所链接的数量和链接质量,来确定该网页在搜索结果中的排名。PageRank认为,一个网站如果经常被其他网站所引用,那么这个网站就更加重要。

PageRank算法可以通过以下几个步骤来实现:

  1. 首先,将所有网页看作是一个有向图,网页为图中的节点,超链接则为图中的边。
  2. 计算每个网页的初始权重值,可以将它们都初始化为相同的值。
  3. 然后,迭代计算每个网页的PageRank值,直到达到一定的收敛条件为止。在每次迭代中,PageRank值都会根据与其相连的网页的PageRank值进行更新。
  4. 最终,根据每个网页的PageRank值来排序,以便在搜索引擎中显示最相关的结果。

PageRank是Google搜索排名算法的核心之一,但是随着搜索引擎算法的发展,它已经不再是Google搜索排序的唯一因素。不过,PageRank仍然被广泛应用于其他领域,例如社交网络分析、推荐系统等。

随机游走

随机行走(Random Walk)是一种数学和统计学中的随机过程,其特点是由在各个状态之间随机移动的物体所产生的一系列路径。在随机行走中,物体的运动轨迹具有不确定性和无规律性,且每次移动的距离和方向都是随机的。

在网络分析领域,随机行走也被广泛应用于网络节点的路径分析、信息传播模型的建立、重要节点的筛选和社区划分等问题上。例如,PageRank算法和随机游走算法就是基于随机行走思想而生的经典算法,广泛应用于搜索引擎和图像识别等领域。

GAT (Graph Attention Networks)

image-20230426103803364

信息检索

Extracting Relevant Information from User’s Utterances in Conversational Search and Recommendation(从会话搜索和推荐中的用户话语中提取相关信息)

image-20230419223805735

问题

对话搜索和推荐变得越来越流行[7,16,17,28,36,42]。

  1. 该过程从接收用户的请求开始
  2. 继续询问澄清问题或由系统建议一些可能的项目或文档
  3. 通过这种方式,系统可以从用户那里获得有价值的反馈,从而准确地确定用户的需求。
  4. 重复此过程,直到搜索或推荐成功,或者用户接受失败为止。

然而大多数现有的作品都未能从用户的话语中提取相关信息,以便在下一轮对话中进行检索或推荐。
原因是他们专注于在用户的话语中找到语义上与对话上下文相似的术语
然而,信息检索和推荐系统的主要目标是找到相关信息
这意味着一个词可能在语义上接近对话的上下文,但不会提高目标项目或文档的排名[23]。
这一目标在这些任务的会话版本中更为重要,因为在会话的每一个回合中,如果我们不能从用户的话语中提取相关信息,就会延长会话的进行时间它最终更有可能失败。
更糟糕的是,大多数现有作品都不分青红皂白地将所有过去的信息添加到对话的上下文中,以便进行下一轮对话,这意味着不相关的材料也会保留在对话中。

解决

•RelInCo引入了两个Actor,一个是选择器Actor,另一个是排列Actor,它们可以同时训练,也可以按顺序训练,以在用户的对话搜索和推荐过程中找到最有效的单词。

•我们设计了一个高效的效用计算器作为我们的奖励函数,以捕捉相关性并指导演员和评论家。

image-20230420084422145

ABSTRACT

对话式搜索和推荐系统可以通过对话提出明确的问题,并从用户那里收集有价值的信息。然而,一个重要的问题仍然存在:我们如何从用户的话语中提取相关信息,并将其用于下一轮对话的检索或推荐?利用来自用户话语的相关信息可以使系统在对话结束时获得更好的结果。

在本文中,我们提出了一个基于强化学习的模型,即RelInCo,它采用用户的话语会话的上下文,并将用户话语中的每个单词分类为属于相关或非相关类别。RelInCo使用两个Actor:
1)Arrangement Actor,它在用户的话语中找到最相关的单词顺序;
2)Selector Actor,按照排列Actor提供的顺序,确定哪些单词可以使系统更接近对话的目标。

通过这种方式,我们可以在用户的话语中找到相关信息,并将其用于对话。我们模型中的目标函数是以这样一种方式设计的,即它可以最大化任何期望的检索和推荐指标(即对话的最终目标)。

我们在两个公共数据集上进行了广泛的实验,结果表明所提出的模型优于最先进的模型。

INTRODUCTION

近年来,通过使检索和推荐系统能够通过与用户的对话动态获取用户偏好对话搜索和推荐变得越来越流行[7,16,17,28,36,42]。

  1. 该过程从接收用户的请求开始
  2. 继续询问澄清问题或由系统建议一些可能的项目或文档
  3. 通过这种方式,系统可以从用户那里获得有价值的反馈,从而准确地确定用户的需求。
  4. 重复此过程,直到搜索或推荐成功,或者用户接受失败为止。

最近,社区已经开始探索这项任务的各种设置[1,5,16,36,43]。例如,Li等人[16]收集了一个公开可用的大规模会话推荐数据集,并探索了设计会话推荐系统的新型神经架构、程序和方法。Moon等人[25]介绍了两个众包代理之间关于特定主题或实体的对话集。

Zhang等人[43]提出了一种用于会话搜索和推荐的系统询问-用户响应(SAUR)范式。然而,他们的模型是建立在产品的各个方面作为问题和价值观作为答案的基础上的。此外,他们的模型不能优化排名措施,将其作为会话搜索和推荐的最终目标。Zhou等人[46]提出了一种方法,将面向单词和面向实体的知识图(KG)结合到会话推荐系统中,以补偿自然语言表达和项目级用户偏好之间的语义差距。他们使用知识图来添加足够的上下文信息,以便准确理解用户的偏好。

然而大多数现有的作品都未能从用户的话语中提取相关信息,以便在下一轮对话中进行检索或推荐。
原因是他们专注于在用户的话语中找到语义上与对话上下文相似的术语
然而,信息检索和推荐系统的主要目标是找到相关信息
这意味着一个词可能在语义上接近对话的上下文,但不会提高目标项目或文档的排名[23]。
这一目标在这些任务的会话版本中更为重要,因为在会话的每一个回合中,如果我们不能从用户的话语中提取相关信息,就会延长会话的进行时间它最终更有可能失败。
更糟糕的是,大多数现有作品都不分青红皂白地将所有过去的信息添加到对话的上下文中,以便进行下一轮对话,这意味着不相关的材料也会保留在对话中。

在本文中,我们提出了RelInCo,这是一种基于强化的算法,用于在会话搜索和推荐中从用户的话语中提取相关信息
我们模型的主要目标是提高检索性能(即相关性),例如任何所需的检索和推荐指标。
最大化排名度量是一个具有挑战性的问题,因为排名度量是不可微的。强化学习是在各种问题中最大化不可微度量的有效方法[2,26,31]。强化学习中最有效的算法之一是Actor-Critic算法[14,38]。在这种方法中,演员采取一个动作,其评论家告知演员这个动作有多好,以及应该如何改进。
在我们的任务中,我们设计了一个选择器Actor,用于确定用户话语中的哪些单词可以使系统更接近对话的目标。
因此,给定用户话语和会话的上下文,在每个步骤中,选择器Actor获取用户话语的一个单词,并将其分类为属于相关或非相关类别。换句话说,选择器Actor的操作是选择或丢弃单词。如果选择器Actor决定保留单词,我们将根据单词更新对话的上下文

假设选择器Actor按顺序判断用户话语中的单词,我们需要知道单词的哪种排列在提高目标项目的排名方面最有效

因此,我们设计了一个排列Actor,它接受用户的话语,并返回选择器Actor使用的有效单词顺序。RelInCo的工作流程如图1所示。

image-20230420084422145

我们模型中的两个参与者都是通过近端策略优化(PPO)[33]使用Actor-Critic算法进行训练的,这提高了对参与者的监督。

我们将奖励函数建模为效用计算器,以便它可以针对不同的评估指标进行优化,例如平均精度或归一化贴现累积增益(NDCG)[12]。

在理想情况下,效用计算器可以通过用户满意度信号来设计,以获取相关性

第3节介绍了这项工作的核心贡献:

•我们提出了RelInCo,这是一个基于强化的模型,用于在会话搜索和推荐中从用户的话语中提取相关信息。RelInCo似乎是在会话搜索和推荐中提取相关信息的第一次尝试。

•RelInCo引入了两个Actor,一个是选择器Actor,另一个是排列Actor,它们可以同时训练,也可以按顺序训练,以在用户的对话搜索和推荐过程中找到最有效的单词。

•我们设计了一个高效的效用计算器作为我们的奖励函数,以捕捉相关性并指导演员和评论家。

在两个公共会话搜索和推荐数据集上进行的一组实验进一步证明了RelInCo在NDCG等标准评估措施方面的有效性。我们从一些有用的背景和注释以及相关工作的概述开始。

Multiwave COVID-19 Prediction from Social Awareness using Web Search and Mobility Data(利用网络搜索和流动性数据从社会意识预测新冠肺炎疫情)

image-20230423100333061

问题

  1. 之前模型的一个关键输入是流动性数据[6,19,22],该数据描述了人口流动,并与疾病感染呈正相关[49]。尽管如此,对人类流动动力学的持续跟踪表明,流动强度与感染病例的关系并不一致 数据不好
  2. **在第二波中,人们与症状相关的网络搜索频率比第一波要低 **

解决

image-20230423101527500

图2:SAB-GNN的框架。我们首先将城市区域建模为节点,并使用移动信息传播网络搜索频率嵌入D1天(即空间模块)。接下来,我们使用可学习的社会意识矩阵来恢复节点表示(即社会意识恢复模块),并将其输入到LSTM序列中以预测下一个D2天的感染病例(即时间模块)

ABSTRACT

新冠肺炎疫情的反复爆发对全球社会造成了持久影响,这就需要利用各种早期可用的数据来预测大流行波。使用流动数据预测第一波疫情的现有预测模型可能不适用于多波预测,因为美国和日本的证据表明,不同波的流动模式与感染病例的波动表现出不同的关系。
因此,为了预测多波疫情,我们提出了一种基于社会意识的图神经网络(SAB-GNN),该网络考虑了与症状相关的网络搜索频率的衰减,以捕捉多波疫情中公众意识的变化。我们的模型将GNN和LSTM相结合,以模拟城市地区、地区间流动模式、网络搜索历史和未来新冠肺炎感染之间的复杂关系
我们训练我们的模型,利用其2020年4月至2021 5月期间的流动性和网络搜索数据,通过雅虎日本公司根据严格的隐私保护规则收集的四次大流行浪潮,预测东京地区未来的大流行疫情。结果表明,我们的模型优于最先进的基线,如ST-GNN、MPNN和GraphLSTM。尽管我们的模型计算成本不高(只有3层和10个隐藏神经元),但所提出的模型使公共机构能够预测和准备未来的疫情爆发

INTRODUCTION

新冠肺炎的传播机制很复杂,因为它依赖于疾病特征和社会因素,如人类活动[35,51]、公众意识[36]和干预政策。

复杂疾病传播过程中的一个突出现象是多重爆发波,这意味着大量感染病例的周期性反弹[28],在美国、英国、法国和日本等许多国家都很明显(图1)。

突发和不确定的疾病爆发扰乱了个人的日常生活、政府的重新开放政策[5]、医疗资源管理[30]和风险评估[57]。通过充分利用不同类型的数据来研究和构建准确的模型来预测多个波浪,这将产生巨大的社会影响[48]。

已经提出了许多第一波疫情的预测模型来预测感染和死亡病例[9,27,41,43]。

这些模型的一个关键输入是流动性数据[6,19,22],该数据描述了人口流动,并与疾病感染呈正相关[49]。尽管如此,对人类流动动力学的持续跟踪表明,流动强度与感染病例的关系并不一致:(1)美国:2020年7月1日至12月1日,人类流动性波动约为正常时期的95%[10],7月出现第二波,11月出现第三波(图1);(2) 东京:2020年7月后,社会接触指数恢复到正常水平并略有下降,但此后东京经历了第二波[52]。研究界也注意到并讨论了流动性数据在长期多波感染预测中的局限性[2,29]。流动性和感染的不一致性需要其他更能代表疾病浪潮的数据

在新冠肺炎期间,人们提出了许多基于文本的方法来帮助社区,例如了解人类的情绪状态[21]和回答人们的问题[54]。网络服务提供商收集的网络搜索记录具有广泛的应用,如客户行为分析[14]、疾病爆发监测[17]和疏散预测[53]。对于COVID19,症状相关的网络搜索记录(例如,发烧、咳嗽和头痛)反映了公众的病毒引起的症状,这些症状无法从流动性数据中挖掘出来。东京的证据表明,高风险用户(根据网络搜索记录定义)与感染病例之间的皮尔逊相关性为0.719,第二波滞后16天[52]。研究还发现,在第二波中,人们与症状相关的网络搜索频率比第一波要低,尽管患者数量明显更高。这些结果启发我们利用网络搜索数据,恢复人类意识衰退,以预测多波疫情。

在本研究中,我们提出了一种多波感染预测方法1,可直接应用于城市地区级疾病爆发预警。区级疾病预测有以下三个要求

  1. 应包括人员流动和社会反应等综合数据源,以包含与疾病传播密切相关的各种提示;
  2. 应考虑新冠肺炎的时空传播模式;
  3. 它捕捉到了感染病例和其他因素之间的复杂依赖关系。

为了应对这些挑战,我们首先定义了网络搜索移动网络(WMN),其节点和边缘分别维护网络搜索频率和地区间的人员流动信息。之后,我们在WMN的基础上提出了一种基于社会意识的图神经网络(SAB-GNN)架构,以捕捉不同城市地区的时空感染病例动态。
我们使用2020年4月至2021 5月在东京的真实感染、人类流动性和网络搜索数据对模型进行了训练和测试,并获得了比最先进的基线模型更好的预测性能。

我们的方法有三个贡献:

  1. 我们专注于预测全球流行但很少被调查的多波疾病爆发。与单波预测不同,多波预测使公共机构能够评估长期风险,并在不同的疫情阶段采取适当的行动。
  2. 我们通过融合历史感染、流动性和网络搜索数据提出了SAB-GNN,这些数据为潜在的疾病爆发提供了足够的证据。空间模块、时间模块和社会意识模块分别承担责任,共同为预测做出贡献。
  3. 拟议的方法在东京这座特大城市实施,为期一年多,共有四波疫情。我们在不同的时间间隔对不同模型的疾病爆发和预测结果进行了全面分析,这有助于对疾病波动有更细致的理解。

image-20230423101527500

图2:SAB-GNN的框架。我们首先将城市区域建模为节点,并使用移动信息传播网络搜索频率嵌入D1天(即空间模块)。接下来,我们使用可学习的社会意识矩阵来恢复节点表示(即社会意识恢复模块),并将其输入到LSTM序列中以预测下一个D2天的感染病例(即时间模块)

Semantic Retrieval at Walmart(沃尔玛的语义检索)

image-20230423102234353

问题

  1. 产品标题(可搜索的主要文本)通常比网络文档短得多 检索特定的产品同时匹配较短的文本是一个具有挑战性的问题
  2. 在传统的文本匹配方法中,往往只考虑了查询和文档之间的词汇匹配,而忽略了产品属性和特征等方面的信息。相比起一般的文本查询,产品搜索中常常需要查询特定领域或行业中的专有名词、术语以及各种属性和特征等信息,这就对检索算法的设计和优化提出了更高的要求。需要专家知识且组件不好维护
  3. 由于延迟问题嵌入大小不能太大,这一事实限制了神经系统

解决

  1. 我们在电子商务网站上部署了一个混合搜索系统,该系统同时具有反向索引和神经检索功能,以处理高流量的尾部查询。
  2. 我们提出了一种选择负示例来训练大型神经检索模型的新方法,并提出了一个评估性能的近似度量
  3. 我们广泛探索了神经系统在多个维度上的检索性能,包括模型架构、数据准备和实际考虑因素。
  4. 我们报告了在每天为数百万在线客户提供服务的电子商务网站中开发和部署混合搜索系统的经验教训和实际发现

ABSTRACT

产品搜索中,与其他搜索(如网络搜索)相比,在重新排序之前检索候选产品更为关键和具有挑战性,尤其是对于具有复杂和特定搜索意图的尾部查询(出现频率较低、长度较长、具有比较明显的特定意图的查询)
在本文中,我们提出了一个部署在沃尔玛的电子商务搜索混合系统,该系统结合了传统的反向索引基于嵌入的神经检索,以更好地回答用户的尾部查询。通过离线和在线评估,我们的系统显著提高了搜索引擎的相关性。这些改进是通过不同方法的组合实现的。我们提出了一种新的技术来大规模训练神经模型。并描述了该系统是如何在生产中部署的,对响应时间几乎没有影响。我们强调了在部署该系统时使用的多种知识和实用技巧

INTRODUCTION

搜索是客户在沃尔玛等电子商务网站上发现产品的最重要渠道之一。

鉴于我们庞大的目录包含数百万种产品,帮助用户找到相关产品进行查询是一个非常具有挑战性的问题[32]。现有的信息检索文献主要集中在网络搜索上[25]。虽然产品搜索与网络搜索有许多共同的挑战,但产品搜索有许多独特的方面。与其他搜索一样,产品搜索通常包括两个步骤:

  1. 第一步是从构成召回集的目录检索所有相关产品;
  2. 然后,这些候选产品经过重新排序步骤,以确定哪些产品最适合返回给客户。

与网络搜索的一个主要区别是,产品搜索中的检索步骤是一个更关键、更具挑战性的问题[3,5,18]。这是因为产品标题(可搜索的主要文本)通常比网络文档短得多。此外,虽然许多网络文档可能包含相同的信息,但卖家的特定产品很少有重复信息。检索特定的产品同时匹配较短的文本是一个具有挑战性的问题。

传统上,检索是基于查询和文档之间的文本匹配,使用像Okapi BM25[25]这样的启发式评分函数和像Apache Lucene1这样的反向索引[1]。文本查询和文档之间的匹配存在词汇不匹配[23],这在产品搜索中可能更成问题[14,32,33]。
例如,同义词和超同义词很难处理[34]。许多现有的工作旨在通过结合知识图[40]或具有专用的查询理解组件[6]来解决这个问题。然而,这些方法需要大量的领域专业知识,并且维护这些组件的成本很高,因为电子商务中的目录和产品词汇经常发生变化。

最近,神经检索系统被提出[14,33],并部署在生产系统[43,44]中,在弥合词汇差距方面取得了巨大成功。然而,由于延迟问题嵌入大小不能太大,这一事实限制了神经系统。这在处理稀有代币时是有问题的[23]。

在本文中,我们描述了沃尔玛网站生产中使用的混合系统,以及它如何克服传统文本匹配检索和神经检索的个体局限性。我们展示了这样一个用于尾部查询的系统的好处,并强调了我们在将该系统投入生产的过程中所学到的知识。其中包括与训练模型相关的各种挑战,以及在保持低服务成本的同时将模型部署到生产中的工程挑战。我们描述了一种在产品搜索环境中在检索性能和模型复杂性之间取得良好平衡的解决方案。

本文的新颖性如下:

  1. 我们在电子商务网站上部署了一个混合搜索系统,该系统同时具有反向索引和神经检索功能,以处理高流量的尾部查询。
  2. 我们提出了一种选择负示例来训练大型神经检索模型的新方法,并提出了一个评估性能的近似度量
  3. 我们广泛探索了神经系统在多个维度上的检索性能,包括模型架构、数据准备和实际考虑因素。
  4. 我们报告了在每天为数百万在线客户提供服务的电子商务网站中开发和部署混合搜索系统的经验教训和实际发现

Interpreting Patient Descriptions using Distantly Supervised Similar Case Retrieval(使用远程监督的相似病例检索解释患者描述)

image-20230423110529117

问题

  1. 重要挑战是对患者描述进行推断**。例如,考虑到患者表现出的症状的描述,可能结合其他相关因素,如年龄、性别或病史,我们可能想推断诊断或确定推荐的药物。 **
    现有的生物医学LMs经常难以完成此类任务
  2. 一种自然的策略是用表达相关知识的句子来增加患者描述,这些知识是从一些文本语料库中检索的
    虽然检索到的句子有助于澄清一个不寻常术语的含义,或提供特定的知识,但我们不太可能找到一个句子来捕捉从给定的患者描述中推断诊断或推荐特定治疗所需的特定知识
  3. 根据给定的患者描述和检索到的段落之间的相似性来估计这一假设成立的可能性 选择最近邻策略
  4. 最近邻策略的成功关键取决于我们以适当的方式识别不同患者描述之间共性的能力,这本身就是一个具有挑战性的问题。例如,即使两名患者经历了类似的情况,他们的病例细节也可能在许多方面有所不同
  5. 除了这些中心对应关系之外,这两种描述的细节有很大不同。因此,识别相关的患者描述是一个不平凡的问题,需要专业的临床知识。鉴于这些挑战,用于估计文本相似性的现成模型显然不足以识别相关的患者描述。此外,据我们所知,没有可用于训练监督模型的标记数据集

解决

解决方案依赖于以下两个步骤:

  1. 我们在一组患者描述上训练一个无监督的文本编码器。该编码器用于选择候选段落的初始集合。它有两个主要优势:
    1. 它允许高效密集地检索一小部分候选段落;
    2. 它可以依赖于患者描述的一些临床知识,因为它是在这个领域训练的。
  2. 然后使用预先训练的交叉编码器对候选段落的初始集合进行排序。我们初始化这个交叉编码器并在标准文本相似性数据集上对其进行预训练。
  3. 尽管没有接受过关于患者描述的培训,但我们表明,这一重新排序步骤提高了我们方法的有效性。直观地说,域外交叉编码器可能是有效的,因为所有候选段落(至少在某种程度上)都是相关的。因此,该模型可以专注于识别更具体的共性,这可能不需要那么多临床知识

我们的实验结果表明,我们的总体方法非常有效,提高了关于患者描述的问答技术[27]。

ABSTRACT

生物医学自然语言处理通常涉及对患者描述的解释,例如用于诊断或推荐治疗。
目前基于生物医学语言模型的方法已被发现难以完成此类任务。

此外,检索增强策略的成功有限,因为很少能找到表达解释给定患者描述所需的确切知识类型的句子
出于这个原因,我们建议依靠最近邻策略,而不是试图检索明确的医学知识。
首先,我们检索与给定的患者描述相似的文本段落,因此很可能描述处于类似情况下的患者,同时也提到了一些假设(例如 患者的可能诊断)。然后,我们根据检索到的段落的相似性来判断假设的可能性

然而,识别类似病例是一项挑战,因为对类似患者的描述表面上可能看起来相当不同,尤其是因为它们往往包含大量不相关的细节。

为了应对这一挑战,我们提出了一种依赖于远程监督交叉编码器的策略。尽管概念简单,但我们发现这种策略在实践中是有效的。

INTRODUCTION

生物医学自然语言处理(NLP)面临的一个重要挑战是对患者描述进行推断。例如,考虑到患者表现出的症状的描述,可能结合其他相关因素,如年龄、性别或病史,我们可能想推断诊断或确定推荐的药物。
表1显示了多项选择QA评估数据集的一个示例来说明这种设置。为了支持生物医学NLP,已经引入了几种适用于生物医学领域的BERT[17]版本,包括ClinicalBERT[3]、SciBERT[9]、BioBERT[35]和PubMedBERT[21]。由于标准语言模型(LMs)能够做出各种事实和常识推断[16,49,76],人们可能会期望这些生物医学LMs同样能够完成任务,例如从症状推断诊断。
然而,先前的工作表明,现有的生物医学LMs经常难以完成此类任务。例如,Alghanmi等人[2]发现,在从患者描述推断诊断方面,标准BERT模型与专门的生物医学LMs具有显著的竞争力。Meng等人[44]进一步引入了一项探索任务,用于评估生物医学LMs获取的知识,这也揭示了重大问题。

image-20230423111158529

表1:一名31岁的女性因有5个月间歇性腹部疼痛病史而就诊。在过去的两年里,她已经有五次尿路感染。她的血压是150/88毫米汞柱。体格检查显示双侧上腹部非末端肿块。血清研究显示尿素氮浓度为29 mg/dL,肌酸酐浓度为1.4 mg/dL。肾脏超声检查显示双侧肾脏增大,伴有多个实质性无回声肿块。以下哪项诊断最有可能?
(A) 髓质海绵肾(B)单纯性肾囊肿(C)常染色体显性多囊肾病(D)常染色体隐性多囊肾病

为了缓解生物医学LMs的局限性,一种自然的策略是用表达相关知识的句子来增加患者描述,这些知识是从一些文本语料库中检索的。类似的策略已经被证明对事实和常识性的问题回答很有用[29,45,60]。
然而,当涉及到解释患者描述时,这种策略的潜力就不那么明确了。例如,Sushil等人[62]使用信息检索引擎在生物医学语料库中找到相关句子,然后将其添加到自然语言推理(NLI)实例的前提中。在MedNLI[55]的实验中,他们没有发现统计学上的显著改善这一扩充战略的一部分。

虽然检索到的句子有助于澄清一个不寻常术语的含义,或提供特定的知识,但我们不太可能找到一个句子来捕捉从给定的患者描述中推断诊断或推荐特定治疗所需的特定知识。事实上,这种推断往往是临床判断的问题,而不是应用可以用一句话表达的规则式知识[56,68]。

我们的目的不是寻找直接表达医学知识的句子,而是寻找与给定患者描述本身相似的段落潜在的直觉是,这些段落很可能描述了处于类似情况下的患者,无论对这些患者来说是真的,从给定的描述来看,对患者来说也是真的。我们特别关注也提到一些感兴趣的假设的段落,例如。

在问答(QA)的上下文中的候选答案。

然后,我们根据给定的患者描述和检索到的段落之间的相似性来估计这一假设成立的可能性。类似病例的使用在临床决策中发挥着重要作用[6,8,46,63],因此最近邻策略的使用是自然的,并且在概念上是直接的

此外,从应用程序的角度来看,检索类似案例的想法也很有吸引力,因为这些案例可以用作给定预测的支持证据。这对生物医学领域尤为重要,因为在生物医学领域,可解释性和透明度显然至关重要。

然而,这种最近邻策略的成功关键取决于我们以适当的方式识别不同患者描述之间共性的能力,这本身就是一个具有挑战性的问题。例如,即使两名患者经历了类似的情况,他们的病例细节也可能在许多方面有所不同,其中一些可能很重要,也可能无关紧要。此外,患者描述可能在提供的细节水平以及整体写作风格上有所不同。

为了说明这些问题,表2显示了我们的模型从MedQA基准[27]中检索到的给定问题的顶部段落。可以看出,这两种患者描述都是指在经历丧亲之痛后不久突然出现异常行为。然而,除了这些中心对应关系之外,这两种描述的细节有很大不同。因此,识别相关的患者描述是一个不平凡的问题,需要专业的临床知识。鉴于这些挑战,用于估计文本相似性的现成模型显然不足以识别相关的患者描述。此外,据我们所知,没有可用于训练监督模型的标记数据集。这使得解释患者描述的问题与开放域QA等环境本质上不同,在开放域QA中,相关段落的黄金注释通常可用,系统可以依赖于密切相关任务的迁移学习。

image-20230423143303279

表2:MedQA的一个问题的例子,以及我们的模型检索到的关于候选答案短暂精神病障碍的顶部段落。

问题:
一名20岁的妇女被她的母亲带到医院接受心理咨询,因为她女儿最近的怪异行为,她很担心。病人的父亲一周前死于癌症。尽管这对整个家庭来说都很有压力,但从那以后,女儿一直在听到声音,并产生侵入性的想法。这些声音在谈论她,以及她应该如何死去,并鼓励她自杀。她在工作或学校都无法集中注意力。
她没有其他病史或精神病史。她否认最近使用过任何药物。如今,她的心率为90次/分,呼吸频率为17次/分、血压为110/65毫米汞柱,温度为36.9°C(98.4°F)。
体检时,她显得瘦削而焦虑。她的心脏有规律的心率和节律,双侧肺部听诊清楚。CMP、CBC和TSH正常。尿液毒理学测试呈阴性。患者最有可能的诊断是什么?

候选答案短暂性精神病性障碍
检索文章:一例晚期子宫颈癌症患者与丧亲相关的短暂性精神疾病:病例报告和文献回顾。我们在此报告一位患有子宫颈癌症的绝症患者,在失去三位同样患有妇科癌症的密友后,在丧偶后出现短暂的精神障碍。一位49岁的家庭主妇被诊断患有子宫颈癌症,正在接受姑息治疗,由于突然出现妄想、怪异行为、杂乱无章的言语和紧张行为,她被转诊进行精神咨询。在精神病检查中,她表现出妄想和紧张行为。实验室数据并不显著,脑部核磁共振成像也是如此。她没有精神病史,也没有吸毒或酗酒史。
接受氟哌啶醇治疗后,精神症状消失,3天后恢复到以前的功能水平。这位患者解释说,她的三个朋友因妇科癌症死亡对她来说是一件令人震惊的事情。她把注意力集中在自己对死于同样疾病的恐惧上。癌症患者的短暂精神障碍在文献中很少见。然而,我们关于与丧亲之痛相关的短暂精神病性障碍的报告可能会强调可能的诱因,而迄今为止,文献中尚未充分强调这些因素。

在本文中,我们提出了一种远程监控策略来应对这些挑战。
我们从直觉开始,即在一个重要方面,解释患者描述比开放领域QA更容易:
上下文文章中假设(或答案候选者)的存在使得这篇文章很可能至少在某种程度上是相关的,这与我们正在寻找类似的案例而不是特定的知识这一事实有关。
例如,大多数提到短暂精神障碍的患者描述都会告诉我们这是表2中问题的正确诊断的可能性。
相比之下,提及巴黎的段落可能与询问法国首都的问题完全无关
我们的中心假设是,患者描述的这一方面可以弥补缺乏相关监督数据来学习识别类似病例的不足。特别是,我们提出了一种策略来训练交叉编码器来比较患者描述,即一个微调的语言模型,该模型以两个患者描述为输入,并估计它们的相似程度。为此,我们生成了一个远程监督训练集,通过使用基线模型对候选段落进行排序,并依赖于这样一个假设,即如果该段落提到了可以从目标患者描述中推断出的假设,则该段落是相关的。从概念上讲,这在精神上类似于开放域QA的远程监督策略(见第2节)。然而,一个关键的区别在于,我们不能使用标准的检索模型来对候选段落进行排名
我们的解决方案依赖于以下两个步骤:

  1. 我们在一组患者描述上训练一个无监督的文本编码器。该编码器用于选择候选段落的初始集合。它有两个主要优势:
    1. 它允许高效密集地检索一小部分候选段落;
    2. 它可以依赖于患者描述的一些临床知识,因为它是在这个领域训练的。
  2. 然后使用预先训练的交叉编码器对候选段落的初始集合进行排序。我们初始化这个交叉编码器并在标准文本相似性数据集上对其进行预训练。
  3. 尽管没有接受过关于患者描述的培训,但我们表明,这一重新排序步骤提高了我们方法的有效性。直观地说,域外交叉编码器可能是有效的,因为所有候选段落(至少在某种程度上)都是相关的。因此,该模型可以专注于识别更具体的共性,这可能不需要那么多临床知识

我们的实验结果表明,我们的总体方法非常有效,提高了关于患者描述的问答技术[27]。

Structure and Semantics Preserving Document Representations(保留文档表示的结构和语义)

image-20230423145346002

问题

  1. 嵌入语料库结构中的知识可以克服查询和文档之间由于词汇、粒度、隐含概念和间接关联而产生的差异。因此,孤立地计算用于检索的文档表示,忽略有价值的语料库网络结构是次优的

  2. 由于资源限制,将最先进的预训练/微调上下文语言模型范式[11]纳入图神经系统是不可行的。

  3. 基于度量学习[19]的推理是图遍历的有效替代方案,支持微调和归纳推理。这里的想法是使用一个简单的距离函数根据文档在表示空间中的相似性来分离文档。然而,目前使用度量学习的尝试[28]只关注语义文本相似性,并且需要明确的标签来区分相似和不相似的文档。这些标签通常很难获得,即使可用,它们的扁平性质也无法捕捉大型语料库中固有的丰富而复杂的网络交互。

解决

  1. 超越语义:一种学习文档表示的整体方法,平衡本地文档上下文和全局关系网络,从而保留语义和结构。
  2. 结构挖掘:一种新的机制,基于邻域结构的分治采样来构建相似和不相似的文档对。
  3. 相对边距:对表示空间的歧视性处理,通过可变的分离单位对文档之间的细微关系进行编码。
  4. 五元组损失:一种高效的多输入神经架构,并行聚合对应于结构和语义方面的两个不同损失函数。
  5. 归纳和微调:一个以检索为中心的模型,本机支持查询投影,可以针对特定任务的目标进行微调。

image-20230423155138587

ABSTRACT

从语料库中检索相关文档通常基于文档内容和查询文本之间的语义相似性
包含文档之间的结构关系可以通过解决语义差距来有益于检索机制

然而,结合这些关系需要易于处理的机制,这些机制可以平衡结构和语义,并利用流行的预训练/微调范式。
我们在这里提出了一种通过集成文档内内容和文档间关系来学习文档表示的整体方法。我们的深度度量学习解决方案分析了关系网络中复杂的邻域结构,以有效地对相似/不相似的文档对进行采样,并定义了一个新的五元组损失函数,该函数同时鼓励语义相关的文档对在表示空间中更近,结构无关的文档对远离。此外,文档之间的间隔可以灵活地变化,以对关系强度的异质性进行编码。该模型是完全可微调的,并且在推理过程中本机支持查询投影

我们证明,对于文档检索任务,它在多个数据集上优于竞争方法。

INTRODUCTION

文档检索系统基于文本查询来显示用户感兴趣的文档。文档检索的算法解决方案是几个应用程序的构建块如问答[5]、摘要[43]、推荐[3]以及搜索和导航[35],具有基础研究兴趣。

由于长格式文本、语料库大小、查询文档词汇不匹配以及查询和文档内容之间的长度不对称,识别和检索有限数量的相关文档本质上是具有挑战性的。现代方法[14,23,26]遵循多级级联排名体系结构,其早期检索通常包括在上下文感知语义特征空间[42]中表示文档,将查询投影到相同的表示空间中,并最终基于查询表示和文档表示之间的相似性对文档进行排名。

这种检索机制的一个经常被忽视的方面是文档之间的关系。在现实世界中,文档不一定是独立的,而是基于一些共享的基本特征在网络中相互连接。例如,学术出版物通过引用、超链接网页、具有本体的临床记录以及通过用户档案的社交媒体进行关联。嵌入语料库结构中的知识可以克服查询和文档之间由于词汇、粒度、隐含概念和间接关联而产生的差异。因此,孤立地计算用于检索的文档表示,忽略有价值的语料库网络结构是次优的[10,21]。

将语料库网络拓扑编码到文档表示空间的现有努力主要采用基于图的架构[6]。这些方法的一个主要缺点是,它们的转导性质禁止直接支持样本外预测,而样本外预测是推理时确定查询表示所必需的。此外,由于资源限制,将最先进的预训练/微调上下文语言模型范式[11]纳入图神经系统是不可行的。

基于度量学习[19]的推理是图遍历的有效替代方案,支持微调和归纳推理。这里的想法是使用一个简单的距离函数根据文档在表示空间中的相似性来分离文档。然而,目前使用度量学习的尝试[28]只关注语义文本相似性,并且需要明确的标签来区分相似和不相似的文档。这些标签通常很难获得,即使可用,它们的扁平性质也无法捕捉大型语料库中固有的丰富而复杂的网络交互。由于纠缠邻域结构引起的组合爆炸,自动确定这些标签是不平凡的。此外,现有模型使用暹罗[2]或三元组[18]架构,这些架构不适合对相似性的不同方面进行编码。

我们在这里通过提出一种新的基于深度度量学习的文档表示学习方法来解决这些问题这既考虑了文档内内容又考虑了文档间关系。我们的解决方案不需要任何显式标签,而是动态构建一个相对的相似性度量,以在表示空间中分离文档(见图1)。

image-20230423155138587

图1:检索框架概述。通过有效地挖掘相似/不相似对并动态地改变分离裕度,学习文档表示来保留语义内容和结构关系。文档是根据它们到投影到相同表示空间中的查询的距离进行排名的。

具体来说,离线分析语料库结构,以按连通性的递增顺序排列文档。这些排序的文档被反复细分,以对结构相似和不相似的对进行采样,而等效的语义对是根据文档内容构建的。这种采样过程覆盖了关系网络中的广泛邻域,可以很好地扩展到大型语料库。

我们用五元组损失函数扩展了经典的三元组损失[12],该函数同时鼓励语义相关的文档对更接近,结构无关的文档对相距很远。这种扩展还解决了三重态损失的一个关键限制,其中分离裕度是先验固定的
相反,我们允许基于结构相似程度的边际以几何方式增长。这种灵活性促进了表示空间中的相对分离顺序,并能够区分强关系和弱关系。与图神经方法相比,我们学习的模型允许在推理时无缝地计算查询表示。此外,它支持长格式文本,并在训练期间自适应地微调Transformer[37]语言模型权重,从而实现特定任务的定制。

我们在多个公开可用的数据集[4,10,13,32]上进行了实验,并表明所提出的模型优于竞争方法。我们还包括对学习到的嵌入的分析。

我们的贡献如下:

  1. 超越语义:一种学习文档表示的整体方法,平衡本地文档上下文和全局关系网络,从而保留语义和结构。
  2. 结构挖掘:一种新的机制,基于邻域结构的分治采样来构建相似和不相似的文档对。
  3. 相对边距:对表示空间的歧视性处理,通过可变的分离单位对文档之间的细微关系进行编码。
  4. 五元组损失:一种高效的多输入神经架构,并行聚合对应于结构和语义方面的两个不同损失函数。
  5. 归纳和微调:一个以检索为中心的模型,本机支持查询投影,可以针对特定任务的目标进行微调。

在下文中,第2节将我们的工作与相关工作进行了比较,第3节详细描述了模型,第4节介绍了结果,第5节总结了我们的发现。

A Category-aware Multi-interest Model for Personalized Product Search(一种用于个性化产品搜索的类别感知多兴趣模型)

image-20230423160920062

问题

大多数现有的方法都假设用户兴趣可以表示为单个向量,我们认为这有以下限制。

  1. 首先,独立于查询的方法中的单个向量无法反映和表达用户在不同类别中的多种偏好。然而,用户在购买不同种类的产品时可能会有不同的偏好(品牌、价格、功能等)。例如,当用户想买手机时,她可能更喜欢“iPhone”,但当她需要电脑工作时,她更喜欢“Surface”。在这种情况下,如果我们将这个用户嵌入到一个向量中,不同类别的偏好将混合在一起,基于这个单一偏好向量的推荐有时会不准确
  2. 其次,如果我们将当前查询视为依赖于查询的方法来构建单个用户向量,那么由于用户历史项的在线处理时间查询延迟将很高

解决

  1. 首先,我们分别构建和存储用户的不同偏好,这样不同类别的兴趣就不会以无序的方式相互影响。某个购买的物品只会对与其相关的兴趣产生影响。
  2. 其次,在在线服务或测试阶段,系统只需要聚合有限数量的关于查询和候选物品的偏好向量。与依赖查询的模型相比,通过取消以这种方式处理整个历史,系统将减少大量的计算消耗和查询延迟。
  3. 此外,我们初步利用类别信息来构建和聚合用户的多种兴趣
    在推荐中建模多个兴趣[9,18]的现有方法主要使用产品本身的表示来将用户的历史兴趣聚类到几个向量中,而没有任何外部属性信息
    与它们不同的是,在我们的模型中,我们捕获了查询和项目的类别嵌入,并使用它们来帮助分离用户兴趣。此外,我们将每个偏好向量类别指示表示相关联,以指示该偏好所关注的类别的分布
    例如,用户的第一个偏好可能集中在手机和平板电脑上,而第二个偏好则集中在电脑上。接受这些类别信息,多个兴趣的聚合将有外部消息作为参考。我们还可以通过这些类别指示更准确地确定哪些兴趣刺激了某种购买

ABSTRACT

产品搜索已经成为人们在网上购物平台上寻找产品的重要方式。
个性化产品搜索中的现有方法主要将用户偏好嵌入到一个向量中。然而,这种简单的策略很容易导致次优表示,无法对用户的多种偏好进行建模和理清
为了克服这个问题,我们提出了一个类别感知的多兴趣模型,将用户编码为多个偏好嵌入,以表示用户特定的兴趣。
具体来说,我们还捕捉每个偏好的类别指示,以指示其关注的类别的分布,这源于用户、产品和属性之间的丰富关系。基于这些类别指示,我们开发了一种类别注意机制,将当前查询和项目作为用户的综合表示来聚合这些不同的偏好嵌入。
通过这种方式,我们可以使用这种表示来计算检索到的项目的匹配分数,以确定它们是否符合用户的搜索意图。此外,我们引入了一个同质化正则化术语,以避免用户兴趣之间的冗余。

实验结果表明,所提出的方法显著优于现有方法。

INTRODUCTION

随着亚马逊和淘宝等电子商务平台的快速发展,网上购物在人们的日常生活中越来越受欢迎。为了购买某些商品,最常见的模式是用户发出查询来描述他们的需求,然后平台提供与查询相关的商品列表供用户购买。先前的研究[2,11,29-32]表明,用户历史有助于获得明确的用户意图,并进一步提高搜索结果的质量。例如,如果一个用户过去购买苹果的产品,现在发出一个查询“电脑”,她想买的可能是“Mac”。如果搜索引擎能把“Mac”排得更高,用户的满意度就会提高。最近,为了对用户的历史进行编码并对他们的偏好进行建模,已经提出了许多个性化的产品搜索方法[2,3,5,6,12,13,21,28]。

现有的个性化产品搜索方法大致可以分为独立于查询的和依赖于查询的两种。

  1. 独立于查询的方法[3,4,21,28]将用户嵌入到一个通用的简档向量中,而不考虑当前查询来表示他们的兴趣。这些方法可以方便地应用于实际系统,因为可以在离线训练阶段计算和存储用户表示。
    然而,如果不考虑发布的查询,它们将无法对用户的动态搜索意图进行建模
  2. 为了获得用户的动态搜索意图依赖于查询的方法[2,5,6,12]根据运行时的当前查询或候选项来构建用户表示。不幸的是,这些方法带来了额外的在线计算成本,因为它们无法提前构建用户嵌入,并且需要在运行时访问整个用户历史

然而,无论他们使用哪种配置文件,大多数现有的方法都假设用户兴趣可以表示为单个向量,我们认为这有以下限制。

  1. 首先,独立于查询的方法中的单个向量无法反映和表达用户在不同类别中的多种偏好。然而,用户在购买不同种类的产品时可能会有不同的偏好(品牌、价格、功能等)。例如,当用户想买手机时,她可能更喜欢“iPhone”,但当她需要电脑工作时,她更喜欢“Surface”。在这种情况下,如果我们将这个用户嵌入到一个向量中,不同类别的偏好将混合在一起,基于这个单一偏好向量的推荐有时会不准确
  2. 其次,如果我们将当前查询视为依赖于查询的方法来构建单个用户向量,那么由于用户历史项的在线处理时间查询延迟将很高
  3. 因此,我们认为我们需要多个离线偏好向量来描述用户在不同类型产品中的不同需求
    通过这种方式,我们可以选择性地聚合这些向量来对乘积进行排序当用户搜索不同类别的产品而不是使用单个向量或集成所有用户历史时。

为了实现这一目标,在本文中,我们建议使用反映用户不同偏好的多个向量。此外,我们专注于离线阶段,并构建独立于查询的用户向量

  1. 首先,我们分别构建和存储用户的不同偏好,这样不同类别的兴趣就不会以无序的方式相互影响。某个购买的物品只会对与其相关的兴趣产生影响。
  2. 其次,在在线服务或测试阶段,系统只需要聚合有限数量的关于查询和候选物品的偏好向量。与依赖查询的模型相比,通过取消以这种方式处理整个历史,系统将减少大量的计算消耗和查询延迟。
  3. 此外,我们初步利用类别信息来构建和聚合用户的多种兴趣
    在推荐中建模多个兴趣[9,18]的现有方法主要使用产品本身的表示来将用户的历史兴趣聚类到几个向量中,而没有任何外部属性信息
    与它们不同的是,在我们的模型中,我们捕获了查询和项目的类别嵌入,并使用它们来帮助分离用户兴趣。此外,我们将每个偏好向量类别指示表示相关联,以指示该偏好所关注的类别的分布
    例如,用户的第一个偏好可能集中在手机和平板电脑上,而第二个偏好则集中在电脑上。接受这些类别信息,多个兴趣的聚合将有外部消息作为参考。我们还可以通过这些类别指示更准确地确定哪些兴趣刺激了某种购买

更具体地说,我们提出了类别感知多兴趣模型(CAMI)构建多个用户配置文件
该模型源自知识图嵌入方法,因为它在[4]中的个性化产品搜索情况下是有效的,并且可以自动学习用户和产品的表示。
为了理清用户在不同类别中的不同兴趣,我们用K个偏好向量代替单个嵌入向量,并为项目、查询和每个用户偏好构建相应的类别指示嵌入。
我们需要确认,特定用户的偏好和指示嵌入都是基于她自己的历史创建的不同的用户可以有不同的类别分布。此外,为了避免用户兴趣之间的同质化,我们将测量用户兴趣的类别指示嵌入之间的距离的正则化项添加到最终损失函数中。这种冗余正则化项迫使模型分离兴趣,并避免其降级为单一嵌入方法
在运行时,我们的模型通过产品嵌入和基于多个偏好向量的综合用户嵌入之间的匹配分数来对项目进行评分。基于用户、查询和项目的类别嵌入,通过注意力机制来分配多个偏好的组合权重。实验结果表明,与依赖查询的方法相比,所提出的方法可以显著优于现有方法,并且可以更有效地处理查询。我们工作的主要贡献有三个方面:

(1) 我们学习多种兴趣表示,以对离线阶段用户不同偏好进行编码,从而进行个性化产品搜索。通过这种方式,我们的方法可以在不同的类别中反映用户的各种兴趣。

(2) 我们利用类别信息来聚合用户的多种兴趣。我们的方法没有使用产品表示本身来整合用户的多种兴趣,而是将类别指示作为参考,并且更准确。

(3) 我们在最终优化中引入了均匀化正则化,以避免不同利益之间的冗余。

正则化术语旨在最大化类别指示之间的裕度,迫使模型分离用户兴趣。

IHGNN: Interactive Hypergraph Neural Network for Personalized Product Search(IHGNN:用于个性化产品搜索的交互式Hypergraph神经网络)

image-20230423165943022

问题

  1. 认为现有的方法没有充分利用协作信号。在历史用户-产品-查询交互中,揭示实体之间的亲和力是潜在的,这对个性化搜索至关重要。目前这个方向工作量不够
  2. PPS中的交互比传统的搜索和推荐更复杂,是三元的,而不是二元的-每个交互都涉及三个元素:用户、产品和查询。构造一个简单的图来保持三元关系是很困难的。
  3. 现有的GNN主要对邻居的特征进行线性聚合忽略了邻居的高阶特征交互。事实上,在PPS中,相关实体之间的交互可能是指示目标节点特性的强信号。例如,当用户搜索“女式包”并最终购买“爱马仕”品牌的包时,查询和产品的交互将生成一个非常有用的语义(例如,“女式奢侈品牌”),用于分析用户的偏好

解决

与用于推荐或非个性化搜索的GNN不同,我们的IHGNN做了两个重要的改进:
(1)由于超图中的每个超边连接多个节点,IHGNN采用了两步信息传播方案-节点聚合,该方案聚合来自连接节点的信息以更新超边表示;以及超边缘聚合,其从相关超边缘收集信息以更新目标节点表示。
(2) 由于邻居交互在PPS中很重要,我们显式地进行邻居的高阶特征交互,然后聚合交互结果以增强目标节点表示。

ABSTRACT

一个好的个性化产品搜索(PPS)系统不仅应该专注于检索相关产品,还应该考虑用户的个性化偏好。最近关于PPS的工作主要采用表示学习范式
例如,从历史用户行为(又名用户-产品-查询交互)中学习每个实体(包括用户、产品和查询)的表示。
然而,我们认为,现有的方法没有充分利用关键的合作信号,这一信号潜伏在历史互动中,无法揭示实体之间的亲和力。协作信号有助于生成高质量的表示,利用这一点将有利于一个节点从其连接的节点中进行表示学习

为了解决这一限制,在这项工作中,我们提出了一种用于个性化产品搜索的新模型IHGNN。IHGNN采用了由历史用户-产品-查询交互构建的超图,该超图可以完全保留三元关系,并基于拓扑结构表达协作信号
在此基础上,我们开发了一个特定的交互式超图神经网络,将显式编码到嵌入过程中。它从超图邻居那里收集信息,并显式地对邻居特征交互进行建模,以增强目标实体的表示。

在三个真实世界数据集上进行的大量实验验证了我们的提案相对于现有技术的优越性。

INTRODUCTION

网上购物充斥着我们的日常生活。随着电子购物平台上的产品数量呈爆炸式增长,如果没有产品搜索引擎的帮助,用户几乎不可能发现想要的产品。当每个用户提交查询时,搜索引擎会为他检索一个潜在产品列表。搜索结果的质量对用户满意度和零售商收入都至关重要。

与专注于查找与查询匹配的项目的传统搜索任务不同,产品搜索更具挑战性,因为目标产品具有高度个性化[12,29]。在典型的电子购物场景中,用户通常有截然不同的购买意图,即使他们发出相同的查询。以“美味食物”为例,欧洲用户可能会期待一些意大利面,而中国用户可能会对饺子感兴趣。

人们普遍认为,用户的购买会受到其个性化偏好的影响[2,38]。因此,产品搜索引擎的个性化很重要,其目标是“准确了解用户想要什么,并为他提供个性化建议”[13]。

为了实现这一目标,现有的个性化产品搜索(PPS)方法[1,2,4,12,24,42,47,48]主要采用表示学习范式。他们将每个实体(包括用户、产品和查询)转换为矢量化表示,然后基于嵌入预测用户的购买倾向。
尽管它们的性能不错,但我们认为现有的方法没有充分利用协作信号。在历史用户-产品-查询交互中,揭示实体之间的亲和力是潜在的,这对个性化搜索至关重要。例如,参与同一产品的用户可能具有相似的偏好;用户购买相同产品的查询可能具有相似的语义。
当配备有如此丰富的仿射信息时,一个节点的表示学习可以受益于其他相关的表示学习,从而产生更高质量的表示。与我们的工作最接近的是[22],然而,它只利用了三种手动设计的亲和模式这远远不够。如何充分利用PPS的协作信号仍然是一个悬而未决的问题。

这项工作填补了研究空白。意识到图神经网络(GNN)在关系表示学习中的有效性[15,20],我们希望利用其在PPS中的优势。在传统的搜索[30,43]和推荐[18,37]中,图是二分图,表示查询词匹配和用户项目匹配
对这些图进行图卷积可以从相似的邻居那里收集信息,这明确地加强了协作信号的表示
然而,由于两个主要困难,将这个吸引人的想法转移到PPS任务并非易事:
(P1)PPS中的交互比传统的搜索和推荐更复杂,是三元的,而不是二元的-每个交互都涉及三个元素:用户、产品和查询。构造一个简单的图来保持三元关系是很困难的。
例如,如果我们强行将用户、产品和查询之间的三元关系拆分为三元关系[17],我们将丢失用户-产品交互发生的信息。图1(b)给出了一个玩具示例,我们无法确定交互(u2,p2)发生在哪个查询下:q1,或q2,或两者都发生。由于简单的图不能无损地表示三元关系,因此我们需要采用更通用的拓扑结构来进行模型开发

image-20230423200643408

图1:(a)展示了一个推荐系统中用户-产品的例子,(b)和(c)则是针对个性化产品搜索中折叠图和超图的样例。其中,ui、qi、pi(i=1,2,3)分别代表用户、产品或查询,hei(i=1,2,3,4)表示超边,用椭圆形式展示在(c)中。每个用户-查询-产品交互对应一条超边,共有4条交互:(u1,q1,p1),(u2,q1,p2),(u2,q2,p3)和(u3,q2,p2)。

(P2)现有的GNN主要对邻居的特征进行线性聚合忽略了邻居的高阶特征交互。事实上,在PPS中,相关实体之间的交互可能是指示目标节点特性的强信号。例如,当用户搜索“女式包”并最终购买“爱马仕”品牌的包时,查询和产品的交互将生成一个非常有用的语义(例如,“女式奢侈品牌”),用于分析用户的偏好

我们需要明确考虑特征交互来增强PPS的表示。

为了解决这些问题,我们建议从三元用户-产品-查询交互中构造一个超图。与简单图相比,超图是一种更适合建模三元关系的数据结构,因为每个超边可以连接任意数量的节点。
在此基础上,我们进一步提出了一种新的PPS模型,称为交互式超图神经网络(IHGNN),该模型沿着上述超图递归地聚合邻居信息
与用于推荐或非个性化搜索的GNN不同,我们的IHGNN做了两个重要的改进:
(1)由于超图中的每个超边连接多个节点,IHGNN采用了两步信息传播方案-节点聚合,该方案聚合来自连接节点的信息以更新超边表示;以及超边缘聚合,其从相关超边缘收集信息以更新目标节点表示。
(2) 由于邻居交互在PPS中很重要,我们显式地进行邻居的高阶特征交互,然后聚合交互结果以增强目标节点表示。

总之,这项工作做出了以下贡献:

  1. 我们用用户产品查询超图来处理PPS任务,并开发了一个超图神经网络,将协作信号显式编码到表示学习中。
  2. 我们强调了在表示学习中利用特征交互的重要性,并提出在超图嵌入聚合中显式地建模邻居的高阶特征交互。
  3. 我们在三个真实世界的数据集上进行了广泛的实验,以证明IHGNN每个组件设计的有效性和合理性。

Modeling User Behavior with Graph Convolution for Personalized Product Search(基于图卷积的个性化产品搜索用户行为建模)

image-20230423202058484

问题

解决

在这项工作中,我们建议在用户连续行为图(SBG)上探索局部和全局用户行为模式,用于用户偏好建模
SBG是利用所有用户的短期行为构建的,这些行为共同形成了一个产品之间关系丰富的全局行为图
为了捕捉隐含的用户偏好信号协作模式,我们使用图卷积来学习丰富的产品表示,随后可以用于用户偏好建模。
由于用户购买行为通常是稀疏的,因此探索SBG上的高阶信息来建模潜在的用户兴趣是有帮助的,这需要堆叠许多图卷积层,并导致众所周知的过度平滑问题
为了解决这个问题,我们采用了一种高效的跳跃图卷积层,可以有效地缓解过度平滑的影响。

ABSTRACT

用户偏好建模是个性化产品搜索中一个重要但具有挑战性的问题。近年来,基于潜在空间的方法通过联合学习产品、用户和文本标记的语义表示,实现了最先进的性能。然而,现有方法对用户偏好建模的能力是有限的。他们通常通过使用专注模型在短时间内访问的产品来代表用户,并且缺乏利用关系信息(如用户-产品交互或项目共生关系)的能力。在这项工作中,我们建议通过探索用户连续行为图上的局部和全局用户行为模式来解决现有技术的局限性,该行为图是通过利用所有用户的短期动作来构建的。

为了捕捉隐含的用户偏好信号协作模式,我们使用高效的跳图卷积来探索高阶关系,以丰富用户偏好建模的产品表示。我们的方法可以与现有的基于潜在空间的方法无缝集成,并有可能应用于任何使用购买历史来建模用户偏好的产品检索方法。在八个亚马逊基准上进行的大量实验证明了我们方法的有效性和潜力。

源代码位于https://github.com/floatSDSDS/SBG.

INTRODUCTION

便利性推动了淘宝或亚马逊等电子商务平台的发展。产品搜索是在线购物平台中的一个重要模块,它引导用户浏览和购买大量商品中的产品。产品搜索有其独特的特点,有别于网络搜索,在网络搜索中,信息检索取得了长足的进步。首先,在网络搜索引擎中,网页通常由长的描述性文本表示,而在电子商务平台中,产品主要由标题和评论等短文本表示,这些文本可能并不总是信息丰富的。第二,除了文本表示,产品还与各种关系数据相关联,包括本体、规格表、图表等。第三,电子商务平台中存在各种类型的用户-项目交互。用户可以浏览、点击、查看或购买产品,也可以简单地将其放入购物车。此外,还有其他结构信息,如查询重新制定、商店浏览或类别浏览以及购物车结账。

将如此丰富的信息用于个性化产品搜索将是非常希望的,但具有挑战性。现有方法主要利用文本数据。其中,最近的一项研究[1,2,6,20]提出将查询、项目和用户投影到同一潜在空间,并通过语言建模和信息检索任务学习所有实体的表示,这使得模型能够学习特定领域的语义表示。然而,他们对用户偏好建模的能力有限,这是产品搜索的核心问题。代表用户的一种常见方式是通过他们在一段时间内访问过的产品,但长期的历史用户行为通常包含嘈杂的偏好信号。HEM[2]遇到了这个问题,因为它代表了用户对所购买产品的所有评论。ZAM[1]、TEM[6]和RTM[7]使用专注的模型,如基于Transformer的编码器,来对用户偏好进行建模,并考虑用户行为和查询。为了计算效率,用户行为序列通常被截断,并且只有最近的行为被截断考虑过的。虽然这有助于消除有噪声的偏好信号,但短期用户行为可能不包含足够的偏好信号(见第3节中的更多讨论)。

为了捕捉更有用的用户偏好信号,探索各种用户-产品交互和产品共生关系是一个自然的想法,这些通常被编码在图中。

最近的一些努力[3,27]致力于利用结构图信息进行个性化产品搜索。Ai等人[3]提出了一种动态关系嵌入模型(DREM)。DREM构建了一个统一的知识图来编码不同的关系和动态用户搜索/购买行为,并通过模。Liu等人[27]提出了基于图嵌入的结构关系表示学习(GraphSRRL),该学习显式地对结构关系进行建模,例如两个用户通过同一查询访问同一产品,或者一个用户通过两个不同的查询访问相同产品。虽然DREM和GraphSRRL可以对复杂的关系进行建模,但它们包括了用于偏好建模的所有先前用户行为,并且可能会受到过度多样化的信号引起的噪声的影响

在这项工作中,我们建议在用户连续行为图(SBG)上探索局部和全局用户行为模式,用于用户偏好建模
SBG是利用所有用户的短期行为构建的,这些行为共同形成了一个产品之间关系丰富的全局行为图
为了捕捉隐含的用户偏好信号协作模式,我们使用图卷积来学习丰富的产品表示,随后可以用于用户偏好建模。
由于用户购买行为通常是稀疏的,因此探索SBG上的高阶信息来建模潜在的用户兴趣是有帮助的,这需要堆叠许多图卷积层,并导致众所周知的过度平滑问题
为了解决这个问题,我们采用了一种高效的跳跃图卷积层,可以有效地缓解过度平滑的影响。
为了展示我们方法的有用性,我们将其集成到最先进的基于潜在空间的模型ZAM[1]中,并在八个亚马逊公共基准上评估其性能。结果表明,与包括DREM[3]和GraphSRRL[27]在内的其他基于图的方法相比,我们的方法可以显著改进基本模型,并获得更好的性能。值得注意的是,我们的方法是通用的,可以潜在地应用于任何使用购买历史为用户建模的产品检索方法。

本文的贡献总结如下。

  1. 据我们所知,这是第一项研究如何利用图卷积改进产品搜索的工作,这项技术最近被证明对各个领域的许多应用都很有用。
  2. 我们建议对连续的用户行为进行建模,并利用图卷积的局部和全局行为模式进行用户偏好建模。我们还使用了一个具有跳跃连接的高效图卷积层来缓解过度平滑问题,并从理论上分析了其有效性。
  3. 对八个亚马逊基准的广泛比较实验和消融研究证明了我们提出的方法的有效性,该方法可以潜在地应用于任何产品检索方法,该方法通过用户的购买历史为用户建模,以进行个性化产品搜索。

A multi-representation re-ranking model for Personalized Product Search(一种用于个性化产品搜索的多表示重新排序模型)

image-20230424110903599

问题

解决

  1. 我们提出了一种基于分数融合的方法,用于产品搜索中的个性化重新排序,该方法利用了多个用户/项目表示
  2. 所提出的模型利用了基于内容的信息(即评论、分类信息)协作信息(即从用户-项目交互图中提取的表示)
  3. 所提出的方法快速且可扩展,可以添加到任何搜索引擎的顶部,并且可以很容易地扩展到包括额外的用户/项目表示。

ABSTRACT

近年来,出现了许多电子商务网站。产品搜索是这些网站的基本组成部分,通常作为传统的检索任务进行管理。然而,产品搜索的最终目标是满足特定和个人的用户需求,引导用户根据自己的偏好找到并购买他们想要的东西。为了最大限度地提高用户的满意度,产品搜索应该被视为一项个性化任务
在本文中,我们提出并评估了一种简单而有效的个性化结果重新排序方法,该方法基于由众所周知的排序模型(即BM25)计算的相关性分数与从多个用户/项目表示中得出的分数的融合
我们的主要贡献是:

  1. 我们提出了一种基于分数融合的个性化重新排序方法,该方法利用了多个用户/项目表示
  2. 我们的方法考虑了基于内容的特征协作信息(即从用户-项目交互图中提取的特征)
  3. 所提出的方法快速且可扩展,可以很容易地添加到任何搜索引擎的顶部,并且可以扩展到包括附加功能。所进行的比较评估表明,我们的模型可以显著提高底层检索模型的检索效率,并且在绝大多数情况下,在产品搜索方面优于基于现代神经网络的个性化检索模型。

INTRODUCTION

在过去的25年里,主要的电子商务网站和许多较小的网站都诞生了。网上购物是当今流行的活动,预计在未来几年将变得更加流行,达到20多亿人[1]。2020年,全球电子商务零售额达到4.28万亿美元[2],占所有零售额的18%[3]。

通常,用户在通过搜索引擎搜索到可用产品后,决定购买哪些商品。在产品搜索的背景下,用户的需求是高度个性化的,搜索引擎应该根据用户的偏好定制结果列表,因为用户的多样性在很大程度上影响检索到的产品的相关性。因此,个性化本质上是产品搜索不可或缺的一部分

一般来说,电子商务网站允许用户表达他们对所购买产品的意见和考虑。这种反馈采取评分评论的形式。客户评论为用户和项目建模提供了有价值的信息,因为它们包含有关用户偏好和产品财产的线索,而这些通常在描述中没有指定。虽然用户生成的内容可以捕捉用户的特殊性和多样性,但对用户购买行为的分析可以提供补充信息,以丰富用户和项目表示。这些信息可以捕捉用户之间的相似之处以及项目的受欢迎程度

为了解决产品搜索中的个性化问题,最近提出了许多基于神经网络的检索模型。他们利用辅助信息推断项目财产和用户对它们的兴趣。最近的工作主要集中在利用用户评论[4-11]、品牌和类别[10]以及产品图像[5]来个性化用户搜索体验。Guo等人[11]还研究了长期和短期偏好在产品搜索中的影响,而Zamani等人[9]提出在产品搜索和产品推荐任务中联合建模个性化。Bi等人[8]和Zhang等人[6]在对话背景下探讨了产品搜索中的个性化问题。受[12]的启发,这些方法都假设产品搜索是一项固有的语义任务,因为用户查询和项目描述之间存在严重的词汇不匹配[13]。正因为如此,作者基于查询和项目信息之间的语义相似性,通过将它们映射到同一潜在空间中,对内部查询匹配过程进行了建模。

与最近将个性化直接注入检索模型的工作不同,我们将产品搜索中的个性化作为一项结果重新排序任务来处理,其中搜索引擎检索的项目列表基于新相关性的计算进行重新排序通过将搜索引擎评估的相关性得分与几个用户-项目兼容性得分融合而获得的得分。更具体地说,我们提出了一个简单而有效的个性化结果重新排名模型,该模型基于众所周知的排名模型BM25[14]计算的相关性得分与基于流行度的项目值(一个在以前的工作中似乎被忽视的重要相关性信号)以及在用户的潜在表示和建立在其上的项目之间计算的三个兼容性得分的融合基于内容的信息和协作信息(即评论、分类信息、购买行为)。

尽管最近的文献中大量采用了基于语义匹配的模型,但我们还是选择了经典的词汇匹配检索模型
这一选择是基于这样一种假设,即在产品搜索中,用户查询通常包含“制造商的名称、品牌或一组描述产品类别的术语”[15],而这类信息通常与产品相关信息一样存在。

最后,我们的方法快速且可扩展,可以添加到任何搜索引擎的顶部,并且可以很容易地扩展以适应额外的相关性/兼容性分数。

为了验证所提出方法的有效性,我们进行了几个实验。特别是,我们在亚马逊的各种数据集上,1就最近提出的专门为产品搜索设计的基于神经网络的方法[4,10,12],对其有效性进行了比较评估,这些数据集以前在文献中使用过。我们的模型持续提高了基础检索模型BM25的检索效率,在绝大多数情况下,大大优于基于现代神经网络的基线。

这项工作的主要贡献有三方面:

  1. 我们提出了一种基于分数融合的方法,用于产品搜索中的个性化重新排序,该方法利用了多个用户/项目表示
  2. 所提出的模型利用了基于内容的信息(即评论、分类信息)协作信息(即从用户-项目交互图中提取的表示)
  3. 所提出的方法快速且可扩展,可以添加到任何搜索引擎的顶部,并且可以很容易地扩展到包括额外的用户/项目表示。

本文的结构如下:在回顾了第2节中的相关工作后,我们在第3节中提出了所提出的个性化重新排序模型。在第4节中,我们介绍了执行评估的实验设置,在第5节中,介绍并讨论了评估结果,进行了深入的性能分析。

Meta-Learning Helps Personalized Product Search(元学习有助于个性化产品搜索)

image-20230424110843203

问题

先前工作问题

  1. 检索一个产品的排序列表,该列表不仅与用户的查询相关,而且满足用户历史搜索记录的偏好
  2. 大量用户通常只有很少的搜索记录 如果没有搜索记录,就无法推断用户的偏好,这是指一个零样本学习问题[17,38]。在本文中,我们研究了在搜索记录顺序到达设置下的个性化产品搜索问题
  3. 由于记录顺序到达设置下的少快照甚至零样本学习问题,现有的方法[1、2、13、15]无法发挥其在推断用户偏好方面的优势

他的工作要解决的问题

  1. 全球共享的元知识传递给所有用户是不合适的,因为它们不遵循类似的推理模式。从不同的推理中学习到的元知识对推理没有帮助,甚至有害。
  2. 许多元学习方法[10,14,28,31]假设在学习元知识时所有数据都可用。这与现实世界相反,在现实世界中,搜索记录是按顺序到达的,并且不是一直可用。

解决

因此,在本文中,我们提出了一个贝叶斯在线元学习模型,简称BOML,用于个性化产品搜索任务。
我们的BOML模型旨在借助元知识,通过从用户的搜索记录中推断用户的偏好,提供个性化的搜索服务。
为了实现这一目标,我们的模型从过去用户的推断中构建了元知识的混合物,并将相应的元知识转化为未来用户的推断。考虑到记录在现实世界中是顺序可用的,我们提出了一种在线变分推理算法,以在记录顺序到达设置下更新混合元知识随时间的分布

ABSTRACT

为用户提供个性化搜索服务的个性化产品搜索是电子商务平台的一项重要任务。当从很少的记录甚至没有记录推断用户的偏好时,这项任务仍然是一个挑战,这也称为少快照或零样本学习问题
在本文中,我们提出了一种贝叶斯在线元学习模型(BOML),该模型从对其他用户偏好的推断中转移元知识,以帮助推断当前用户对她/他的少数甚至没有历史记录的兴趣
为了从各种推理模式中提取元知识,我们的模型构建了元知识的混合物,并根据特定用户的记录将相应的元知识传递给特定用户。基于从其他类似推理中学习到的元知识,我们提出的模型搜索产品的排序列表,以满足用户对搜索记录较少(即少快照学习问题)甚至没有搜索记录(即零样本学习问题)的个性化查询意图。在记录顺序到达设置的情况下,我们提出了一种在线变分推理算法来随时间更新元知识。实验结果表明,我们提出的BOML优于最先进的算法。

INTRODUCTION

产品搜索[8,9,37]旨在响应用户的输入查询检索相关产品的排序列表。检索到的产品需要针对用户进行个性化设置,因为即使对于相同的输入查询,用户的偏好也不同。许多工作[1,2,13,15]一直在研究个性化产品搜索问题,其目标是检索一个产品的排序列表,该列表不仅与用户的查询相关,而且满足用户历史搜索记录的偏好

为了为用户提供个性化搜索服务,现有的方法[1,15]从用户的搜索记录中推断用户的偏好,并在考虑用户偏好的情况下响应输入查询来检索产品的排序列表。尽管已经取得了越来越多的进展,但基于很少甚至没有搜索记录来推断用户的偏好(即数据饥饿问题[43])仍有待探索。

然而,这个问题在现实世界中尤其普遍。在实践中,搜索记录是按顺序到达的,并且由于内存有限(即在线设置[3])而不总是可用。

大量用户通常只有很少的搜索记录。他们只与搜索引擎上的少数产品互动,而搜索引擎只占产品的一小部分。从如此少的搜索记录中推断出的用户偏好将主要集中在他们搜索过的产品上,导致搜索引擎忽略了许多其他产品。这样的几个镜头学习问题[32]还没有被充分考虑在内。此外,很大一部分用户是新用户,或者在很长一段时间后与搜索引擎进行交互。

如果没有搜索记录,就无法推断用户的偏好,这是指一个零样本学习问题[17,38]。在本文中,我们研究了在搜索记录顺序到达设置下的个性化产品搜索问题

由于记录顺序到达设置下的少快照甚至零样本学习问题现有的方法[1、2、13、15]无法发挥其在推断用户偏好方面的优势,既没有学习用户、项目和查询的表示来编码用户的偏好[1,2],也没有使用特定设计的神经结构(例如,RNN)从用户的搜索记录中捕获用户的偏好[13,15]。很少有搜索记录可供他们学习适当的表示并获取顺序信息。即使没有搜索记录,用户的表示也是随机初始化的,并且专门设计的结构无法从搜索记录中捕获用户的偏好。

为了解决上述少快照甚至零样本场景下的产品搜索问题,我们考虑学习如何从其他用户的偏好推断,以帮助推断未来用户的偏好。在这种思想下,元学习[19]是一个广泛的技术家族,专注于学习如何学习,并适应少快照甚至零样本学习问题。经验(即元知识)可以用于获取用户偏好的先验推断。

虽然元学习方法[4、10、28、35]在少快照甚至零样本场景下取得了成就,但将其直接应用于个性化产品搜索可能会遇到两个问题:

  1. 全球共享的元知识传递给所有用户是不合适的,因为它们不遵循类似的推理模式。从不同的推理中学习到的元知识对推理没有帮助,甚至有害。
  2. 许多元学习方法[10,14,28,31]假设在学习元知识时所有数据都可用。这与现实世界相反,在现实世界中,搜索记录是按顺序到达的,并且不是一直可用。

因此,在本文中,我们提出了一个贝叶斯在线元学习模型,简称BOML,用于个性化产品搜索任务。
我们的BOML模型旨在借助元知识,通过从用户的搜索记录中推断用户的偏好,提供个性化的搜索服务。
为了实现这一目标,我们的模型从过去用户的推断中构建了元知识的混合物,并将相应的元知识转化为未来用户的推断。考虑到记录在现实世界中是顺序可用的,我们提出了一种在线变分推理算法,以在记录顺序到达设置下更新混合元知识随时间的分布

基于构建的元知识,我们的模型可以为那些搜索记录很少甚至没有记录的用户提供个性化的产品搜索服务,以满足用户的个性化搜索意图。

我们的贡献可以总结如下:

  1. 我们提出了BOML,这是一种用于个性化产品搜索的贝叶斯在线元学习模型,它传递相应的元知识,帮助根据用户很少甚至没有搜索记录来推断用户的偏好。它在为记录较少(即少快照学习问题)甚至没有记录(即零样本学习问题)的用户提供个性化服务方面取得了进展。
  2. 我们构建了从不同推理模式中学习的元知识的混合物,它可以转移从相似用户的推理中提取的相应元知识,以帮助用户偏好的推理。
  3. 我们开发了一种基于后验的在线变分推理算法,用于我们的模型在顺序到达的搜索记录设置下更新元知识的混合。
  4. 在四个数据集上的经验实验结果表明,与最先进的算法相比,我们的BOML可以实现更好的产品搜索性能。

Multi-Objective Personalized Product Retrieval in Taobao Search(淘宝搜索中的多目标个性化商品检索)

image-20230424141620467

问题

解决

ABSTRACT

在像淘宝这样的大规模电子商务平台中,从数十亿个候选产品中检索满足用户需求的产品是一个巨大的挑战。最近,在该领域的许多工作通过增强基于嵌入的检索(EBR)方法,包括淘宝搜索引擎中的Multi-Grained Deep Semantic Product Retrieval (MGDSPR)模型[16],取得了显著改进。
然而,我们发现相比于在我们的在线系统中的其他检索方法如词汇匹配和协同过滤,MGDSPR仍存在相关性差个性化弱等问题。这些问题促使我们进一步加强我们的EBR模型在相关度估计和个性化检索方面的能力。

现有的EBR模型学习在每个单一正训练样本中将正项排在负项之前的排序,不考虑同一页面中多个正负项之间的关系,这会损害EBR模型的检索性能
在本文中,我们提出了一种新颖的多目标个性化产品检索(MOPPR)模型,具有四个分级优化目标:相关性、曝光、点击和购买。我们构建整个空间的多个正样本来训练MOPPR,并采用修改后的softmax损失来优化多个目标。广泛的离线和在线实验结果表明,MOPPR在相关度估计和个性化检索的评估指标上优于基准方法。
MOPPR在28天的在线A/B测试中实现了0.96%的交易增长和1.29%的GMV(总价值)提升。自2021年双11购物节以来,MOPPR已经在移动淘宝搜索中得到完整的应用,取代了以前的MGDSPR。最后,我们讨论了我们对多目标检索和排名的更深层次探索的几个高级主题,以为社区做出贡献。

INTRODUCTION

电商平台中搜索引擎的核心目标是提供能够满足用户需求的产品。随着淘宝平台近年来产品数量的快速增长,已经超过了数十亿个产品,这给搜索引擎带来了巨大的挑战,尤其是我们的检索系统。
受深度学习的发展所启发,提出了一些基于嵌入式检索(EBR)方法[10、16、21、32] 来解决这个问题,并在实际的电子商务平台如亚马逊 [21] 和京东 [32] 中取得了巨大的成功。
我们在淘宝搜索系统中也构建了名为MGDSPR的基于两个塔形嵌入式检索方法
通过检索具有良好相关性的个性化产品,MGDSPR为淘宝实现了重大的交易改进。图1显示了当前淘宝搜索引擎的体系结构,包括两个子系统:多通道检索和级联排序。当用户提交查询时,包括我们的EBR模型在内的多通道检索系统会检索一系列候选产品。然后级联排序系统逐步筛选和排序检索到的产品,最终向用户呈现产品页面。严格的相关性控制模块部署在级联排序系统中,以确保与查询相关的搜索结果的相关性。

image-20230424142831958

在长期的在线实验中,我们发现了MGDSPR存在两个问题:

相关性较差:通过海量的手动相关性注释,我们发现MGDSPR检索到的产品平均相关性低于基于倒排索引的词汇匹配[23、37]的产品。

个性化弱:我们发现MGDSPR检索到的产品相对于词汇匹配和协同过滤[18],在曝光、点击和购买物品集中的比例都较小。这表明MGDSPR在检索满足用户需求的个性化产品方面存在局限性。

为了解决上述问题,我们在EBR模型中引入了多目标优化,以检索尽可能满足用户个性化需求的相关项目。
根据我们的数据分析结果,我们假设只有相关产品才能被曝光、进一步点击和最后购买。当用户在搜索引擎中提交查询时,给定相关性概率P(Rel = 1)和条件暴露概率P(Exp = 1|Rel = 1) 对于物品(产品)i,物品i暴露给用户的概率为P(Exp = 1) = P(Exp = 1|Rel = 1)P(Rel = 1) 。接下来,考虑到它的点击概率P(Click = 1|Exp = 1) 以及转换概率P(Purchase = 1|Click = 1),其购买概率最终定义为:

image-20230424144517126

因此,为了检索满足用户购买需求的商品,EBR模型需要检索具有良好相关性以及高曝光率、点击率和转化率的产品。

然而,样本构造损失函数上的两个挑战妨碍了我们用上述多个目标训练一个有效的EBR模型
现有EBR模型[10、16、32]的训练样本由一个单一的正样本(例如,被点击或购买的项目)和若干个负样本组成,我们称之为单正样本。这些模型的损失函数被优化为最大化正样本的得分并最小化负样本的得分
数据融合的样本加权[10、16]是实现这些模型多目标优化的一种流行方法
我们认为,这种方法并不是最优的,因为它不允许模型同时学习不同种类的正样本和负样本之间的关系。因此,需要设计一种新的样本构造方法和适用的损失函数来应用于多目标检索模型。

本文提出了一种新颖的多目标个性化产品检索(MOPPR)模型,有四个优化目标:相关性、曝光度、点击和购买。
我们构造了新的多目标和多正样本来训练MOPPR。每个样本都是根据我们搜索引擎中的一个页面视图生成的,包括该页面视图中的所有印象项、几个被采样的未展现项和若干个随机负样本。我们采用修改后的softmax损失函数用于多目标优化
我们进行了广泛的离线和在线实验,将MOPPR与我们的在线基线MGDSPR和经典基线U-DNN进行比较。实验结果表明,MOPPR在所有离线指标和在线表现方面显著优于基线。自2021年双11购物节以来,我们已经在手机淘宝搜索中全面部署了MOPPR,为亿万用户提供服务,更好地满足用户的搜索需求并带来了显著的GMV改善。我们进一步讨论了我们对难挖掘数据、GMV最大化检索和多目标检索和排名级联模型的深入探索。

Personalized, Sequential, Attentive, Metric-Aware Product Search(个性化、连续、专注、度量感知的产品搜索)

问题

解决

ABSTRACT

个性化产品搜索的任务旨在检索给定用户的输入查询和他/她的购买历史的产品的排序列表。为了解决这一任务,我们提出了PSAM模型,这是一个个性化、顺序、注意和度量感知(PSAM)模型,它基于用户顺序购买历史数据和相应的顺序查询来学习三种不同类别实体的语义表示,即用户、查询和产品。具体而言,设计了一个基于查询的注意力LSTM(QA-LSTM)模型和注意力机制来推断用户的动态嵌入,从而能够捕捉他们的短期和长期偏好。为了获得三类实体的更细粒度嵌入,在我们的模型中部署了一个度量感知目标,以迫使推断的嵌入服从三角形不等式,这是产品搜索的一种更现实的距离测量。在四个基准数据集上进行的实验表明,我们的PSAM模型在有效性方面显著优于最先进的产品搜索基线,在NDCG@20.我们的可视化实验进一步表明,学习的产品嵌入能够区分不同类型的产品。

INTRODUCTION

近年来,越来越多的人在亚马逊和eBay等电子商务平台上进行网上购物。产品搜索旨在响应用户的输入查询,检索相关产品的排名列表,这是这些电子商务平台中不可或缺的技术。在这些平台上,一个好的产品搜索引擎可以给用户带来愉快的购物体验,并增加用户对平台的粘性。产品搜索的标准场景是,用户提交他/她的查询,然后检索系统返回对给定查询作出响应的产品的排序列表。每个提交的输入查询通常由几个关键字组成。

通常,这样的查询通常是简短而模糊的,很难有效地表达用户潜在的搜索意图。如果排名靠前的搜索结果与用户的偏好不匹配,用户必须花费大量时间才能找到满意的产品。为了改善网上购物体验,搜索引擎应该利用用户的行为来准确地建模他们的偏好,从而检索能够满足用户搜索意图的相关产品。建模用户偏好可以描绘用户的特征,这有助于清楚地了解他们的真正吸引力。用户行为,如评分、投票、点击、购买、竖起大拇指和评论产品,可能会提供许多提示,以帮助提高检索相关产品的性能。众所周知,有两种类型的用户偏好是用户的内在特征,或者可以从用户的行为中推断出来:长期和短期用户偏好[6,30,33,34]。用户的长期偏好是指用户自然且相对持久的购物偏好,这些偏好是用户个人资料中固有的,例如用户的年龄、教育背景和收入。用户的短期偏好表明用户在最近的短期内的购买意愿,这受到偶然性的影响,如季节变化、新产品发布和生日等特殊的个人场合。在这篇文章中,我们研究了个性化产品搜索的问题[2,19,57,58],其目标是返回一个与输入查询和用户的短期和长期兴趣相关的产品排名列表,这些兴趣是他/她的历史购物行为的基础。

先前的研究[2,4,36]表明,对用户的个性化建模可以显著提高产品检索模型和推荐系统的性能。尽管这些模型取得了很好的性能,但仍存在一些缺陷:(1)先前的研究[2,58]主要通过构建语言模型来模拟用户的偏好。他们利用用户对购买产品的评论来推断用户的偏好。然而,在现实场景中,即使平台鼓励用户分享他们购买产品后的感受,一些用户仍然不愿意为购买的产品提供评论,他们可能提供很少的单词作为评论,或者可能提供类似的单词作为所有购买产品的评论,所有这些都导致了语言模型对用户偏好建模的偏见。(2) 最近,提出了潜在向量空间(LVS)模型[1,2,31,54],通过应用矩阵分解技术[60]来对用户、产品和单词之间的关系进行建模,该技术利用点积来对实体之间的关系强度进行建模(在我们的设置中,我们考虑的实体是产品、用户和单词)。如[21]所述,使用点积对实体之间的关系进行建模将违反三角不等式,无法捕捉用户的细粒度偏好。三角形不等式声明,对于任何三个对象,任何两个成对距离的和都应该大于或等于剩余的一个成对距离。在产品搜索中保持三角形不等式可以捕捉用户与用户、项目与项目以及查询与查询相似性的相似关系。(3) 此外,用户的兴趣可能会随着时间的推移而变化[32],然而,大多数以前的产品搜索模型[2,54]都没有考虑用户的短期偏好。

为了解决上述缺陷,在本文中,我们提出了一种用于个性化产品搜索的个性化、顺序、注意、度量感知(PSAM)模型,简称PSAM。我们没有构建语言模型来建模用户的偏好,而是集成用户的短期偏好和长期偏好,以获得更细粒度的用户偏好,这些偏好表示为嵌入。我们首先提出了一种基于查询的注意力LSTM(QA-LSTM),在给定用户当前查询的情况下,通过对购买序列中更相关的项目施加更多权重来获得用户的短期偏好。对于用户的长期偏好,我们使用注意力机制来加权当前查询中先前查询的相关性,然后利用维度融合门来实现用户短期和长期偏好的组合。与最近的先前工作[18,63]不同,用户的当前查询直接用于建模用户的偏好。在我们的工作中,为了满足三角形不等式的要求,我们学习了用户、产品和查询嵌入的欧几里得度量。

为了验证我们提出的PSAM模型的有效性,我们在四个公共亚马逊产品数据集上进行了实验[42],并回答了一些研究问题:(1)我们的PSAM模式能否优于最先进的产品搜索方法?(2) 我们的PSAM模型的每个组件是如何对最终检索性能做出贡献的?(3) 嵌入的维度如何影响我们模型的性能?(4) 短期用户偏好的窗口大小对我们模型的性能有什么影响?(5) 我们的PSAM模型推断出的产品嵌入能否区分不同类型的产品?实验结果表明,我们提出的模型显著优于现有的几种模型。

本文的主要贡献可以总结如下:(1)W e p r o p o s e a n o v e l个性化产品搜索模型PSAM,它将用户的查询纳入到用序列信息建模他们的短期和长期偏好中,并联合集成用户对个性化产品搜索的短期和长远偏好。

(2) 我们提出了QA-LSTM,它可以非常有效地捕捉用户的短期偏好。

(3) 为了解决三角不等式问题,我们部署了一个度量学习目标来学习用户、产品和查询的潜在表示。

(4) 我们在四个基准数据集上进行了实验,结果证明了我们提出的PSAM模型的有效性。我们将PSAM模型的源代码公开给其他研究人员。1本文的其余部分组织如下。在第2节中,我们简要总结了相关工作。第3节阐述了个性化产品搜索问题,并详细介绍了所提出的PSAM模型。我们在第4节介绍了实验装置,在第5节介绍了试验结果和分析。在第6节中,我们总结了这篇文章。

异构图

Disentangled Dynamic Heterogeneous Graph Learning for Opioid Overdose Prediction(用于阿片类药物过量预测的纠缠动态异构图学习)

image-20230415200415227

问题

  1. PDMP提供了与阿片类相关的详细处方史,它仍然不足以预防阿片类药过量,因为它无法预测过度处方的风险。
    1. 由于PDMP数据中Rx条目(如患者和药物)之间的特征分布差异以及它们之间的关系(如患者-药物关系和患者-医生关系),捕获不同Rx条目之间的处方和配药(P&D)关系是第一个挑战;
    2. 不同Rx条目之间的关系自然是动态的,并且它们之间的间隔是变化的。因此,对空间和动态相关性进行建模是第二个挑战;
    3. 处方药可以由不同的医生和药店开处方和配药,也可以多次重复给药。这些因素可能对患者产生不同的影响。因此,提取PDMP数据背后的信息因素是第三个挑战
  2. 现有的基于机器学习的方法主要关注药物剂量,而忽略了患者历史记录背后的其他处方模式,从而导致了次优的性能。

解决方式

  1. 我们首先构造了一个动态异构图来抽象PDMP数据,并正确地描述了不同Rx条目之间的P&D关系
  2. 为了在保持异构性的同时处理空间和动态依赖性,我们提出了一种用函数时间编码策略增强的动态异构图注意力网络(DHGAT)。
  3. 尽管DHGAT学习的条目表示可以直接应用于预测潜在的过度处方患者
    多种因素在表示中高度纠缠,这使得任务更具挑战性。
    因此,通过从DHGAT获得的患者嵌入,我们进一步设计了一种基于生成对抗性网络的新型解纠缠器,以提取处方模式特有的因素。
    特别地,我们引入了从不同关系视图生成的外部先验知识和先验交换机制,以使解纠缠的表示更加可靠。
    最后,将解开的患者嵌入用于预测潜在的高风险过度处方患者。

ABSTRACT

阿片类药物(如羟考酮和吗啡)是一种高度成瘾的处方药(又名Rx),很容易过量服用并导致阿片类过量。最近,阿片类药物在美国的流行越来越严重,其相关死亡人数以惊人的速度上升。为了对抗致命的阿片类药物流行,已经建立了一个国家处方药监测计划(PDMP),以缓解美国的药物过度处方问题。尽管PDMP提供了与阿片类相关的详细处方史,但它仍然不足以预防阿片类药过量,因为它无法预测过度处方的风险

此外,现有的基于机器学习的方法主要关注药物剂量,而忽略了患者历史记录背后的其他处方模式,从而导致了次优的性能。为此,我们提出了一种新的模型DDHGNN——解纠缠动态异构图神经网络,用于超处方预测。具体而言,我们将PDMP数据抽象为一个动态异构图,该图全面描述了处方和配药(P&D)关系。然后,我们设计了一个动态异构图神经网络来学习患者的表征。此外,我们设计了一个对抗性解纠缠器来学习一个解纠缠的表示,它与处方模式特别相关。对一年匿名PDMP数据的广泛实验表明,DDHGNN优于最先进的方法,揭示了其在预防阿片类药物过量方面的良好前景。

INTRODUCTION

阿片类药物通常用于处方药(又名处方药)中的止痛,而它们给患者带来的强烈快感很容易导致成瘾甚至过量服用。尽管阿片类药物的合法分配需要有执照的医生开具处方,但美国与阿片类物质相关的死亡人数仍在惊人地增加。根据美国疾病控制与预防中心的报告,这一数字从2010年的21088上升到2018年的46802[16]。

对过度处方行为的早期预测和干预可能是缓解这一问题的关键。然而,在许多情况下,仅仅依靠专业医护人员的评估是不够的。幸运的是,越来越先进的机器学习技术使我们能够在大规模数据集上检测/预测潜在的过度处方患者。传统的机器学习方法,如回归、梯度增强和随机森林模型,已被用于估计阿片类药物过量风险[15,19]。最近,一些深度学习方法也被提出用于阿片类药物过量预测。根据他们使用的数据,他们对动态依赖性[2,9]、空间依赖性[8,39]进行建模,或者将这两个依赖性组合在一起[5,38]来解决问题。尽管已经取得了进展,但以前的方法很少探索过过量用药患者的处方模式,这可以帮助我们早期预测潜在的过量用药患者,因为这些模式是随着时间的推移而变化的

在美国,建立了一个国家处方药监测计划(PDMP)[4],以电子数据库的形式从药店收集和分发有关联邦管制物质和其他潜在成瘾处方药的处方和分配的数据。然而,PDMP在专业医护人员中的使用仍然有限,主要原因之一是PDMP数据集无法发现潜在的过度处方患者[13]。因此需要一种有效的模型,能够根据患者的历史处方记录来发现有风险的患者。为了实现这一目标,需要解决一些挑战

  1. 由于PDMP数据中Rx条目(如患者和药物)之间的特征分布差异以及它们之间的关系(如患者-药物关系和患者-医生关系),捕获不同Rx条目之间的处方和配药(P&D)关系是第一个挑战;
  2. 不同Rx条目之间的关系自然是动态的,并且它们之间的间隔是变化的。因此,对空间和动态相关性进行建模是第二个挑战;
  3. 处方药可以由不同的医生和药店开处方和配药,也可以多次重复给药。这些因素可能对患者产生不同的影响。因此,提取PDMP数据背后的信息因素是第三个挑战

为了解决上述挑战,我们提出了一种新的纠缠动态异构图神经网络(DDHGNN)来预测具有高过量处方风险的潜在患者。具体来说,

  1. 我们首先构造了一个动态异构图来抽象PDMP数据,并正确地描述了不同Rx条目之间的P&D关系
  2. 为了在保持异构性的同时处理空间和动态依赖性,我们提出了一种用函数时间编码策略增强的动态异构图注意力网络(DHGAT)。
  3. 尽管DHGAT学习的条目表示可以直接应用于预测潜在的过度处方患者
    多种因素在表示中高度纠缠,这使得任务更具挑战性。
    因此,通过从DHGAT获得的患者嵌入,我们进一步设计了一种基于生成对抗性网络的新型解纠缠器,以提取处方模式特有的因素。
    特别地,我们引入了从不同关系视图生成的外部先验知识和先验交换机制,以使解纠缠的表示更加可靠。
    最后,将解开的患者嵌入用于预测潜在的高风险过度处方患者。

总之,我们在这项工作中的贡献是:

  • 为了解决日益严重的阿片类药物过量问题,我们建议根据PDMP数据预测高过量风险患者。我们将PDMP数据中的P&D相关性抽象为动态异构图,不仅可以正确描述不同Rx条目之间的关系,还可以同时集成空间和动态相关性。
  • 提出了一种新的模型,称为DDHGNN,它具有两个协作组件(即DHGAT和增强的对抗解缠结器),用于在动态异构图上编码空间和动态属性,并进一步从学习到的嵌入中分离信息因素。
  • 在1年PDMP数据集上进行了大量实验。许多基线方法相比,所提出的DDHGNN实现了最先进的性能,证明了其在预防阿片类药物流行方面的有效性和前景。

Personalized Fashion Compatibility Modeling via Metapath-guided Heterogeneous Graph Learning(基于元路径引导的异构图学习的个性化服装兼容性建模)有代码

image-20230416164957533

问题

  1. 现有的努力取得了巨大的成功[7,13,32],但他们主要专注于一般的时尚兼容性建模,即从共同的角度探索时尚单品之间的兼容性,而忽略了用户的个人偏好。在实践中,这不适用于现实世界中的时尚产品推荐场景。
  2. 不同的人通常对制作个人理想服装有不同的偏好,一些先驱研究人员已经注意到了这一现象,并将他们的努力奉献给了PFCM[6,20,29]。这些工作主要研究用户和项目实体,以及它们之间的关系。然而,它们忽略了PFCM中的另一个重要实体类型,即属性。属性传递丰富的语义,在表征项目传递用户对项目的偏好方面发挥着关键作用。
  3. 结合属性遇到诸多挑战:
    1. C1:PFCM涉及三种具有异构内容的实体,即用户、项目和属性。特别是,用户是纯ID,项目由图像和文本描述组成,而属性是文本短语的形式。因此,如何有效地无缝地组织这些异构数据是第一个研究挑战。
    2. C2:与项目和属性实体不同,我们没有用户实体的具体内容信息。传统的用户嵌入范式通常分配固定的一个热嵌入或可学习嵌入来表示每个用户。这实际上不适用于在测试阶段到达的新用户,即使是在我们有这些新用户的历史交互的情况下。因此,如何推导用户嵌入是另一个挑战。
    3. C3:事实上,除了用户-项目交互关系、项目-项目匹配关系、项目属性关联关系等直接关系外,这三类实体之间也存在高阶关系。例如,相似的底部与相同的顶部匹配可能共享一些共同的属性。一个例子是,品味相似的用户倾向于喜欢属性相似的物品。有鉴于此,如何探索这些实体之间的高阶关系以增强模型的性能构成了第三个挑战。

解决

  1. 为了解决挑战C1,我们将PFCM上下文中的用户、项目和属性组织到一个统一的异构图中。具体来说,这三种实体就是这个图的节点。节点由三种边连接,即用户-项目交互、项目-项目匹配关系和项目-属性关联关系
    值得一提的是,在这个图中,没有直接的边连接用户和属性实体。

  2. 然后,我们设计了一种新的元路径引导个性化兼容性建模方案来解决C2和C3问题,称为MG-PFCM
    如图2所示。该方案由三个关键组成部分组成:异构图节点嵌入元路径引导的异构图学习个性化时尚兼容性建模

    • 第一个组件致力于嵌入异构图的每种类型的实体。为了表示用户,我们设计了一个面向多模态内容的用户嵌入模块,该模块基于他/她交互项目的多模态内容来导出用户嵌入,这是一个指示用户偏好的直接提示。
    • 关于第二个组件,我们首先定义了多个面向用户和面向项目的元路径(例如→ 项目→ 用户和项目→ 属性→ Item)来捕获实体之间的高阶关系,这自然解决了第三个挑战C3。
      然后,我们进行多元路径引导的异构图学习,以获得每个用户/项目的多语义增强的用户/项目嵌入,从而每个元路径对应于特定的语义。Transformer[33]用于自适应地融合每个用户/项目的不同元路径下的语义增强的用户/项目嵌入
    • 在最后一部分,除了典型的交叉熵损失外,我们还引入了对比正则化来增强嵌入学习。

    image-20230416172411591
    图2:拟议的MG-PFCM方案示意图。它由三个关键组成部分组成:(1)异构图节点嵌入,(2)元路径引导的异构图学习,以及(3)个性化的时尚兼容性建模。

ABSTRACT

时尚兼容性建模(FCM)是一项新的但具有挑战性的任务,旨在自动获取一组互补项目之间的匹配度。
现有的大多数方法都是从通用的角度来评估时尚兼容性,但忽略了用户的个人偏好
受此启发,一些先驱研究了个性化时尚兼容性建模(PFCM)。尽管它们很重要,但这些PFCM方法主要关注用户和项目实体以及它们的交互,而忽略了包含丰富语义的属性实体

为了解决这个问题,我们建议充分探索PFCM中涉及的相关实体及其关系,以提高PFCM的绩效。
然而,由于不同实体的异构内容、新用户的嵌入以及各种高阶关系,这是不平凡的。
为此,我们提出了一种新的元路径引导的个性化时尚兼容性建模,称为MG-PFCM。
特别是,我们创造性地构建了一个异构图,以统一三种类型的实体(即用户、项目和属性)及其关系(即用户-项目交互、项目-项目匹配关系和项目-属性关联关系)
然后,我们设计了一个面向多模式内容的用户嵌入模块,通过继承用户交互项的内容来学习用户表示。
同时,我们定义了面向用户和面向项目的元路径,并执行元路径引导的异构图学习,以增强用户和项目的嵌入
此外,我们引入了对比正则化来提高模型的性能。
我们在真实世界的基准数据集上进行了大量实验,验证了我们提出的方案相对于几个前沿基线的优越性。作为副产品,我们发布了源代码,以造福其他研究人员。

INTRODUCTION

给定一组时尚单品,fashion Compatibility Modeling[21],简称FCM,是为了估计它们对合适服装的匹配程度。由于其在电子商务(如时尚商品推荐)中的重要性和价值[17],FCM越来越受到学术界和工业界的关注。尽管现有的努力取得了巨大的成功[7,13,32],但他们主要专注于一般的时尚兼容性建模,即从共同的角度探索时尚单品之间的兼容性,而忽略了用户的个人偏好。在实践中,这不适用于现实世界中的时尚产品推荐场景。

然而,美学可能是相当主观的。换言之,不同的人通常对制作个人理想服装有不同的偏好,这可能是由于他们不同的成长环境或教育背景造成的。例如,如图1所示,给定相同的粉色衬衫,用户A更喜欢将其与同色裙和高跟鞋搭配;而用户B喜欢将其与休闲牛仔裤和白色运动鞋相协调。有鉴于此,被称为PFCM的个性化时尚兼容性建模在衡量时尚产品之间的兼容性时考虑了用户的偏好,值得我们特别关注。

image-20230416171402388

事实上,一些先驱研究人员已经注意到了这一现象,并将他们的努力奉献给了PFCM[6,20,29]。这些工作主要研究用户和项目实体,以及它们之间的关系。然而,它们忽略了PFCM中的另一个重要实体类型,即属性。属性传递丰富的语义,在表征项目和传递用户对项目的偏好方面发挥着关键作用。

例如,我们可以表达“我想买一件带毛领的黑色外套”,通过语义属性来传达关键信息。为了缓解这一问题,我们引入了与时尚单品相关的属性,并致力于充分探索所有相关实体(即用户、单品和属性)及其各种关系(即用户-单品交互、单品-单品匹配关系和单品-属性关联关系),以提高PFCM性能。在不失一般性的情况下,我们特别研究了“对于特定用户,哪个底部(顶部)与给定的顶部(底部)兼容”的研究问题。

然而,由于以下挑战,解决上述研究并非易事。

  • C1:PFCM涉及三种具有异构内容的实体,即用户、项目和属性。特别是,用户是纯ID,项目由图像和文本描述组成,而属性是文本短语的形式。因此,如何有效地无缝地组织这些异构数据是第一个研究挑战。
  • C2:与项目和属性实体不同,我们没有用户实体的具体内容信息。传统的用户嵌入范式通常分配固定的一个热嵌入或可学习嵌入来表示每个用户。这实际上不适用于在测试阶段到达的新用户,即使是在我们有这些新用户的历史交互的情况下。因此,如何推导用户嵌入是另一个挑战。
  • C3:事实上,除了用户-项目交互关系、项目-项目匹配关系、项目属性关联关系等直接关系外,这三类实体之间也存在高阶关系。例如,相似的底部与相同的顶部匹配可能共享一些共同的属性。一个例子是,品味相似的用户倾向于喜欢属性相似的物品。有鉴于此,如何探索这些实体之间的高阶关系以增强模型的性能构成了第三个挑战。
  1. 为了解决挑战C1,我们将PFCM上下文中的用户、项目和属性组织到一个统一的异构图中。具体来说,这三种实体就是这个图的节点。节点由三种边连接,即用户-项目交互、项目-项目匹配关系和项目-属性关联关系
    值得一提的是,在这个图中,没有直接的边连接用户和属性实体。

  2. 然后,我们设计了一种新的元路径引导的个性化兼容性建模方案来解决C2和C3问题,称为MG-PFCM。
    如图2所示。该方案由三个关键组成部分组成:异构图节点嵌入元路径引导的异构图学习个性化时尚兼容性建模

    • 第一个组件致力于嵌入异构图的每种类型的实体。为了表示用户,我们设计了一个面向多模态内容的用户嵌入模块,该模块基于他/她交互项目的多模态内容来导出用户嵌入,这是一个指示用户偏好的直接提示。
    • 关于第二个组件,我们首先定义了多个面向用户和面向项目的元路径(用户→ 项目→ 用户和项目→ 属性→ 项目)来捕获实体之间的高阶关系,这自然解决了第三个挑战C3。
      然后,我们进行多元路径引导的异构图学习,以获得每个用户/项目的多语义增强的用户/项目嵌入,从而每个元路径对应于特定的语义。Transformer[33]用于自适应地融合每个用户/项目的不同元路径下的语义增强的用户/项目嵌入。
    • 在最后一部分,除了典型的交叉熵损失外,我们还引入了对比正则化来增强嵌入学习。

    image-20230416172411591
    图2:拟议的MG-PFCM方案示意图。它由三个关键组成部分组成:(1)异构图节点嵌入,(2)元路径引导的异构图学习,以及(3)个性化的时尚兼容性建模。

我们的主要贡献可以从三个方面突出:

  • 我们定义了一个异构图,以创造性地统一PFCM上下文中的三种类型的实体和关系。据我们所知,我们是第一个通过PFCM的图来组织时尚单品的多模态内容属性信息的人。
  • 我们提出了一种元路径引导的个性化兼容性建模方案来执行异构图学习。它采用预定义的元路径来探索各种实体之间的高阶关系,从而加强用户和项目的嵌入。
  • 我们通过融合用户的交互项目来获得用户的嵌入,并引入对比正则化来改进嵌入学习。作为副产品,我们在基准数据集上进行了广泛的实验,验证了我们的模型相对于几个前沿基线的优越性1。

个性化的时尚兼容性建模

现有的时尚兼容性建模工作[2,12,27]主要可以分为三类:成对方法、列表方法和图形方法。

  1. 成对方法侧重于一对项的兼容性建模,如顶部和底部。例如,Song等人[28]提出了一种具有双自动编码器网络的多模态成对兼容性建模方案,旨在回答“哪个底部与给定的顶部匹配”的问题。
  2. 列表方法将由两个以上项目组成的服装视为一个序列,并使用序列神经网络对服装兼容性进行建模。例如,Han等人[14]提出用Bi-LSTM对给定服装中的时尚项目之间的兼容性关系进行顺序建模。
  3. 图方法将服装视为一组物品,并利用先进的图神经网络来探索服装的兼容性。例如,Cucurull等人[3]利用图神经网络来学习基于上下文的物品嵌入,然后估计服装兼容性。尽管这些努力取得了重大进展,但它们纯粹关注一般物品的兼容性,而忽略了用户在时尚兼容性评估中的偏好

事实上,对于同一套时尚服装,不同的用户可能会有不同的评价结果。受此启发,一些研究求助于个性化的时尚兼容性建模。例如,[29]中提出了一种用于个性化服装匹配的个性化兼容性建模方案,称为GP-BPR,该方案联合考虑了个性化服装匹配中的一般(项目-项目)兼容性和个人(用户-项目)偏好

项目的图像和上下文描述都被用于综合建模。向前迈进了一步,Sagar等人[24]引入了一种属性可解释的个人偏好建模方案,以加强模型的可解释性,从而探索项目的图像和文本描述。

此外,Li等人[19]开发了一个分层的时尚图网络,以同时对用户、物品和服装之间的丰富关系进行建模。

尽管这些努力取得了令人信服的成功,但在评估兼容性时,它们几乎忽略了物品属性。属性基本上表达了项目的关键语义,并反映了用户的特定偏好。作为补充,在这项工作中,我们结合了属性实体及其语义内容来全面研究PFCM问题。

异构图嵌入

由于异构图在现实世界中无处不在,包含多种类型的节点以及这些节点之间的关系[11,31],越来越多的研究致力于异构图学习。从某种意义上说,现有的方法专注于异构图嵌入,通过为每个节点学习强大的低维向量表示,以有利于潜在的下游应用,如节点分类[1,23]和个性化推荐[9,40]。

为了完成这项任务,以前的方法主要依赖元路径[30],即一系列节点和边类型,传递图的某些语义信息。例如,Dong等人[8]开发了基于元路径的随机行走来构建节点的异构邻域,然后利用skipgram模型[22]来执行节点嵌入。这种方法的一个关键限制是它只使用一个元路径,这可能不足以覆盖所有有用的信息。
为了解决这个问题,Shi等人[25]设计了一种新的策略来生成有意义的节点序列,并利用融合函数来学习节点表示。此外,Zhang等人[37]引入了一个名为HetGNN的异构图神经网络模型,以联合探索每个节点的异构结构和内容。为了获得高级节点表示,几位研究人员[10,35,39]利用注意力机制来柔和地选择最有用的元路径。例如,Wang等人[35]提出了一种异构图注意力网络,该网络结合了节点和语义级别的注意力,以学习节点和元路径对节点嵌入的重要性。随后,Zhang等人[39]针对异构图嵌入提出了一种注意力异构图神经网络,其中考虑了节点级注意力,语义级神经网络为利用而不是语义级别的注意力来捕捉不同元路径下节点嵌入之间的特征交互。不同的是,Xing等人[36]将每个元路径视为一个特定的视图,并借鉴了多视图学习的思想,将不同视图的节点表示综合编码为潜在表示。为了解决属性缺失的实际问题,Jin等人[17]提出了一个通过属性补全实现异构图神经网络的通用框架,包括两个关键组成部分:拓扑嵌入的预学习和具有注意力机制的属性补全。

受这些方法在异构图学习方面取得的巨大成功的启发,我们将PFCM上下文中的各种实体和关系无缝地组织成一个统一的异构图。值得强调的是,我们设计了一些特定于任务的元路径,并创造性地结合了转换器来融合语义增强的用户/项目嵌入。

METHODOLOGY

问题公式化

在这项工作中,我们专注于完成 PFCM 任务。不失一般性地,我们研究了特定问题:“给定底部(上部)是否与给定的上部(下部)匹配,并为给定用户组成合适的服装”。假设我们有一组 N_u 个用户 U = {u_1, u_2, ... , u_N_u} 和一组 N_m 个物品 M = {m_1, m_2, ... , m_N_m}。对于任意的物品 m_i(i = 1, 2, ... , N_m),它由图像 v_i、文本描述 t_i 和一组属性 A_i ⊆ A 组成,其中 A = {A_1, A_2, ... , A_N_a} 表示以语义短语形式呈现的完整属性集,例如红色、羊毛材质和 V 领设计。其中,符号 N_a 表示数据集中所有属性的总数。为了简化问题,在这项工作中我们只考虑上衣和裤子。因此,物品集可以被重写为 M = M_t ∪ M_b,其中 M_t 和 M_b 分别是上衣和裤子的集合。每个用户 u 历史上都与一组上下衣搭配 X_u 相关联,其中 X_u = {(m_u,t1, m_u,b1), (m_u,t2, m_u,b2), ... , (m_u,t_M_u, m_u,b_M_u)},其中 m_u,t∗ ∈ M_t,m_u,b∗ ∈ M_b,M_u 表示用户 u 交互的上下衣搭配总数。

我们采用异构图来将复杂的实体和关系组织在一个统一的结构中。特别地,我们将图表示为G=(E,R),其中E=UõMõA表示实体节点集,由用户实体、项目实体和属性实体组成,而R表示连接节点的边集,以表征实体之间的各种关系,即用户-项目历史交互、项目-属性关联关系和项目-项目匹配关系。

最终,我们致力于学习以下兼容性估计函数,
image-20230426215406731

其中,p_{kij} 表示底部(上衣)m_k 对于给定的上衣(下衣)m_j 对于用户 u_i 的兼容度。

MG-PFCM

image-20230416172411591

如图2所示,MG-PFCM由三个组件组成:

  1. 异构图节点嵌入
  2. 元路径引导的异构图学习
  3. 个性化时尚兼容性建模

在本小节中,我们详细阐述了每一个问题。

异构图节点嵌入

该组件旨在派生异构图中的初始节点级表示。由于异构图有三种类型的实体,并且节点内容有显著差异。因此,我们分别学习它们的嵌入,如图3所示。

image-20230426221326152

项目实体嵌入。每个项目实体都由一个图像一个文本描述组成。每个项目的多模态线索是相辅相成的。对于任意项目푚푖, 无论其类别(即顶部或底部)如何,我们都利用ResNet来提取其视觉特征,ResNet在许多计算机视觉任务中取得了令人信服的成功[15]。同时,由于其在文本表示学习中的突出性能,我们采用预训练的BERT来获得其文本特征2[5,26]。具体来说,我们使用与附加在输入序列开头的特殊标记相对应的平均隐藏状态,即BERT的最后两层的[CLS],作为文本描述的表示。最后,我们将每个项目的视觉和文本特征连接起来,以导出其最终嵌入,并使用可学习的完全连接层将项目嵌入投影到低维空间中。从数学上讲,我们有

image-20230426215752982

其中,e_vi ∈ R_Dv 和 e_ti ∈ R_Dt 分别指代物品 m_i 的视觉和文本嵌入。因此,符号 D_v 和 D_t 分别是视觉和文本嵌入的维度。ResNet 和 BERT 分别表示相应的神经网络。[,] 表示串联操作,f_t 表示可学习的全连接层,e_mi ∈ R_D 是物品 m_i 的最终嵌入。

属性实体嵌入。为了充分利用每个属性实体的语义内容,我们还采用具有可学习全连接层的预训练BERT来推导其嵌入,而不是使用一个热向量或将其视为可学习参数。值得注意的是,对于属性嵌入,我们只采用BERT最后一层的特殊令牌[CLS]的表示,因为与文本描述相比,它的长度更短。

形式上,对于每个属性实体al , 我们得到它的嵌入如下,

image-20230426220600879

其中,e_al ∈ R_D 是属性实体 a_l 的初始嵌入,f_a 表示朝向嵌入微调的全连接层。

用户实体嵌入。我们不使用单热点嵌入,而是聚合用户的单跳邻居节点的所有嵌入(即用户之前交互的所有项目),以导出每个用户实体的初始嵌入。这个其基本原理有两个方面:

  1. 用户历史上交互的项目表示用户的偏好和品味
  2. 冷启动用户的嵌入也可以派生出来,只要他/她的交互项目以前出现过。

具体来说,我们到达下面的用户嵌入,

image-20230426220717467

其中,e_ui ∈ R_D 表示用户 u_i 的嵌入,N_ui 指代用户实体 u_i 的一跳邻居集合。

元路径引导的异构图学习

在这个组件中,我们进行元路径引导的异构图表示学习,以完善每个实体与其上下文信息的嵌入。
特别是,我们首先定义了一些面向用户/项目的元路径,以捕捉实体之间的高阶关系,然后执行元路径引导的语义传播,为每个用户/项目实体派生多个语义增强嵌入。
其中,每个可应用的元路径对应于特定的语义增强嵌入
最终,我们通过转换器融合所有语义增强的嵌入,以获得最终的用户/项目表示。

用户/物品导向元路径定义。根据文献[30],元路径被定义为一个形如 X1-R1→X2-R2→...→Rn→Xn+1 的路径,描述了实体之间的复合关系。在我们的工作中,如图4所示,在构建的异构图中实际上存在各种元路径,其中包含三个实体和丰富的关系。直观地说,不同的元路径反映了不同的语义。例如,元路径UIA3意味着用户历史上偏好一件物品,而该物品具有某种属性,而UIU表示这两个终端用户喜欢同样的时尚物品。类似地,元路径IAI指的是两个末端物品共享同一属性,而IUI表达的是同一用户与两个末端物品进行了交互。针对PFCM上下文,我们只采用从用户实体和物品实体开始的元路径。形式上,令 Pu_𝑒r = {r1, ..., rL} 和 Pi_𝑡em = {s1, ..., sJ} 分别表示预定义的用户导向和物品导向的元路径集合。Y 和 Z 分别表示用户导向的和物品导向的元路径的总数。

image-20230426221355691

元路径引导的语义传播。基于预定义的面向用户和项目的元路径,我们能够通过广度优先搜索策略导出每个用户实体的相应元路径引导的面向用户的子图和每个项目实体的面向项目的子图。然后,基于不同元路径编码的不同信息,我们可以学习具有不同语义的用户/项目实体的嵌入

为了直观地阐明如何细化用户或项目的嵌入,我们以元路径UIA为例。其他元路径引导的学习重复相同的过程。

假设元路径UIA适用于用户实体ui。我们接着为用户实体ui构建一个子图GUIAui。由于元路径UIA的长度为3,我们将用户实体ui的一跳邻居表示为NUIA(1)ui,包括用户曾经交互过的所有物品。以同样的方式,我们将用户实体ui的二跳邻居表示为NUIA(2)ui,其中包括与NUIA(1)ui中的物品相关联的所有属性。
接下来,我们首先汇总来自二跳邻居的信息以增强一跳邻居的嵌入,然后基于此学习用户的语义增强嵌入,具体如下:

image-20230426222009209

其中H是聚合函数,eUIAmi表示物品实体mi的语义增强嵌入,它是用户实体ui的一跳邻居。hUIAui表示用户实体ui的语义增强嵌入。值得强调的是,在每个跳跃的聚合过程中,不同的邻居可能在表征中心实体方面发挥不同的作用
具体来说,某些属性可能在传达物品的属性方面更为重要,而某些物品可能在反映用户的偏好方面做出更大的贡献。考虑到这一点,我们采用了GAT[34]的图注意机制作为聚合函数,以突出信息丰富、有意义的邻居节点。为简洁起见,我们以对用户实体ui的一跳邻居进行聚合操作为例,对其二跳邻居的操作可以类似地定义。具体地,H对用户实体ui的一跳邻居进行聚合操作如下:

image-20230426222347366

其中σ(·)表示激活函数,[,]表示连接操作,WUIA ∈ R2D*1是元路径UIA下信息聚合的节点级别注意力向量。

理论上,针对所有其他面向用户的元路径重复上述过程进行语义传播后,我们可以得到用户实体ui的语义增强用户嵌入Y
然而,在实践中,并非每个面向用户(物品)的元路径都适用于给定的用户(物品)实体

因此有多少个元路径能用上就用多少个元路径,然后获取语义增强嵌入

例如,一旦用户与其他用户没有共同的偏好物品,我们就无法根据元路径UIU导出子图。因此,我们使用Pui = {ri1,...,riYi}来表示可以应用于用户实体ui的元路径集合,其中Yi是适用于用户ui的元路径总数,ri n ∈ Pui,n = 1,...,Yi。基于Pui,我们可以根据上述元路径引导的语义传播过程推导出对应的用户实体ui的语义增强嵌入{hpiui | p ∈ Pui}。类似地,我们使用Pmi = {si1,…,siZi}表示可以应用于项目实体mi的元路径集合,其中Zi是适用于项目mi的元路径总数,si z ∈ Pitem,z = 1,...,Zi。以同样的方式,我们得到项目实体mi的语义增强嵌入集合{hpi_mi | p ∈ Pmi}。

语义增强的嵌入融合。到目前为止,我们已经在不同的元路径下为每个用户和项目实体实现了多个语义增强嵌入,并且每个嵌入都表征了一个方面。为了全面地表示每个用户或项目,我们建议融合每个用户或项的多个嵌入。特别是,我们利用没有位置编码的transformer[33]来执行多语义嵌入融合
主要是由于以下两个问题:

  1. 不同用户的语义增强嵌入的数量可能不同
  2. 在每个用户或项目实体的这些语义增强嵌入之间不存在明确的顺序。为了确保用户和项目的融合嵌入在同一空间中,我们采用单个转换器来实现用户和项目实体的嵌入融合,如下所示,

image-20230426223146387

其中,˜hui和˜hmi分别是用户ui和物品mi的最终表示形式。

个性化的时尚兼容性建模

为了完成PFCM任务,我们首先构建训练集Ω = {(ui,mj,mk+,mk-)|mj ∈ Mt(b), mk+,mk- ∈ Mb(t), yki j=1, yki- j=0 },其中yk+i j=1表示三元组(ui, mj, mk+)是兼容的,即给定用户ui的偏好与物品mj搭配良好。yk-i j=0表示三元组(ui,mj,mk-)不兼容
接下来,对于每个三元组,我们按照公式(7)获得各实体的表示形式,即˜hui、˜hmj和˜hmk+/˜hmk-。然后,我们使用多层感知机(MLP)计算每个三元组的兼容性得分,计算方法如下:

image-20230426223751807

其中ˆpk+(−)i j是给定三元组的预测兼容性得分。然后我们采用交叉熵损失函数,具体如下:

image-20230426223813079

其中sim(,)表示点积操作。最终,我们的目标函数可以写成如下形式:

image-20230426224215632

其中,拉姆达 是非负超参数,用于平衡交叉熵损失和对比正则化的重要性。

EXPERIMENT

在本节中,我们通过回答以下研究问题,在真实世界的数据集上进行了实验。

  • RQ1:MG-PFCM是否优于最先进的基线?
  • RQ2:每个模块如何影响MG-PFCM?
  • RQ3:我们的模型对变压器和GAT层的数量敏感吗?
  • RQ4:MG-PFCM的直观性能是什么?

社区搜索

image-20230415195438088

ABSTRACT

在推荐系统和在线社交网络的交叉点上,链接推荐是一个重要而令人信服的问题。给定一个用户,链接推荐器会识别用户可能感兴趣与之交互的平台中的人。我们提出了RELSON,一个用于运行链接推荐实验的可扩展框架。该库提供了广泛的算法,以及用于评估生成的推荐的工具。RELISON包括考虑建议对在线社交网络属性的潜在影响的算法和度量。因此,该库还实现了网络结构分析度量、社区检测算法和网络扩散模拟功能。库代码和文档可在https://github.com/ir-uam/RELISON.

INTRODUCTION

自20世纪90年代末出现以来,脸书、推特、Instagram、TikTok或领英等在线社交网络的重要性已经超出了预期。[9]. 每天有数亿人访问这些平台,分享内容,发现新的兴趣,并与世界各地的人们建立新的关系。社交网络平台的大量采用促使人们对其周围的许多不同方面进行研究,如网络结构、用户社区的形成方式、网络进化背后的机制,或信息如何在网络中传播。在线社交网络现象也在信息检索和推荐系统等领域提出了新的挑战和机遇[100]。

在线社交网络和推荐系统融合的一个引人注目的挑战是在社交网络中推荐用户可能有兴趣联系的人[45,92]。
链接推荐(也称为联系人推荐)相对于传统的推荐任务有许多有趣的特性。通常,用户和项目是单独的集合
然而,链接推荐中的候选用户是从推荐对象的同一组人中提取的:在这里,相同的实体(人)是直接和间接的推荐对象
此外,链接推荐算法可以利用用户周围社交信息的不同方面来改进推荐。
此外,链接推荐可以成为网络形成的重要驱动力,并成为新兴网络现象中的新代理。
例如,网络中增加的边缘导致了新的沟通渠道的形成,不仅对于直接参与社交联系的两个人,而且对于他们的本地环境和更远的地方。当联系人推荐被接受时,新的链接会对网络行为和发展产生潜在影响[39]。

推荐系统的研发涉及不同领域的技术和方法,如机器学习、信息检索、统计学、人机交互和心理学。各种算法方法和评估方法[13]对实验设计和再现性是一个挑战[21]。已经发布了大量的框架来提供可复制的算法实现,以及评估过程和度量[3,28,37,51,61,71,88,99,101,105]。除了这种方法的多样性之外,还有更多的领域融合到链接推荐中,即社交网络分析和网络科学。毫不奇怪,许多联系推荐方法都源于网络科学中所谓的链接预测[65,69],这是一项旨在识别网络中未来可能创建的链接的任务,通常被公式化为分类问题。

我们的目标是将两种观点(链接推荐和链接预测)整合到我们的框架中,以便在共同的配置下进行比较。因此,我们的框架扩展了当前可用的推荐系统框架,并提供了在网络中推荐人员的特定方法。相反,目前可用的解决链接预测问题的软件[54,58,67]不支持将预测作为推荐任务应用的具体公式和方法。

提出的RELISON框架是一个可扩展的Java库,用于运行和评估社交网络中的链接建议。1该框架不仅考虑了传统的准确性目标问题,还考虑了建议对社交网络财产和行为的潜在影响[2,19,22,50,79,90,93,98,97]。作为这一目的的一部分,RELISON集成了分析网络结构和通过社交网络传播的信息流的功能。

信息检索

xtracting Relevant Information from User’s Utterances in Conversational Search and Recommendation(从会话搜索和推荐中的用户话语中提取相关信息)

image-20230416214806615

ABSTRACT

对话式搜索和推荐系统可以通过对话提出明确的问题,并从用户那里收集有价值的信息。然而,一个重要的问题仍然存在:我们如何从用户的话语中提取相关信息,并将其用于下一轮对话的检索或推荐?利用来自用户话语的相关信息可以使系统在对话结束时获得更好的结果。在本文中,我们提出了一个基于强化学习的模型,即RelInCo,它采用用户的话语和会话的上下文,并将用户话语中的每个单词分类为属于相关或非相关类别。RelInCo使用两个Actor:1)Arrangement Actor,它在用户的话语中找到最相关的单词顺序;2)Selector Actor,按照排列Actor提供的顺序,确定哪些单词可以使系统更接近对话的目标。

通过这种方式,我们可以在用户的话语中找到相关信息,并将其用于对话。我们模型中的目标函数是以这样一种方式设计的,即它可以最大化任何期望的检索和推荐指标(即对话的最终目标)。我们在两个公共数据集上进行了大量实验,结果表明所提出的模型优于最先进的模型

INTRODUCTION

近年来,通过使检索和推荐系统能够通过与用户的对话动态获取用户偏好,对话搜索和推荐变得越来越流行[7,16,17,28,36,42]。

该过程从接收用户的请求开始,并继续询问澄清问题或由系统建议一些可能的项目或文档。通过这种方式,系统可以从用户那里获得有价值的反馈,从而准确地确定用户的需求。重复此过程,直到搜索或推荐成功,或者用户接受失败为止。

最近,社区已经开始探索这项任务的各种设置[1,5,16,36,43]。例如,Li等人[16]收集了一个公开可用的大规模会话推荐数据集,并探索了设计会话推荐系统的新型神经架构、程序和方法。Moon等人[25]介绍了两个众包代理之间关于特定主题或实体的对话集。

Zhang等人[43]提出了一种用于会话搜索和推荐的系统询问-用户响应(SAUR)范式。然而,他们的模型是建立在产品的各个方面作为问题和价值观作为答案的基础上的。此外,他们的模型不能优化排名措施,将其作为会话搜索和推荐的最终目标。Zhou等人[46]提出了一种方法,将面向单词和面向实体的知识图(KG)结合到会话推荐系统中,以补偿自然语言表达和项目级用户偏好之间的语义差距。他们使用知识图来添加足够的上下文信息,以便准确理解用户的偏好。

然而,大多数现有的作品都未能从用户的话语中提取相关信息,以便在下一轮对话中进行检索或推荐。原因是他们专注于在用户的话语中找到语义上与对话上下文相似的术语。然而,信息检索和推荐系统的主要目标是找到相关信息。这意味着一个词可能在语义上接近对话的上下文,但不会提高目标项目或文档的排名[23]。这一目标在这些任务的会话版本中更为重要,因为在会话的每一个回合中,如果我们不能从用户的话语中提取相关信息,就会延长会话的进行时间它最终更有可能失败。更糟糕的是,大多数现有作品都不加区分地将所有过去的信息添加到对话的上下文中,以备下一轮对话,这意味着非相关材料也会保留在对话中。

在本文中,我们提出了RelInCo,这是一种基于强化的算法,用于在会话搜索和推荐中从用户的话语中提取相关信息。我们模型的主要目标是提高检索性能(即相关性),例如任何所需的检索和推荐指标。最大化排名度量是一个具有挑战性的问题,因为排名度量是不可微的。强化学习是在各种问题中最大化不可微度量的有效方法[2,26,31]。强化学习中最有效的算法之一是Actor-Critic算法[14,38]。在这种方法中,演员采取一个动作,其评论家告知演员这个动作有多好,以及应该如何改进。在我们的任务中,我们设计了一个选择器Actor,用于确定用户话语中的哪些单词可以使系统更接近对话的目标。因此,给定用户话语和会话的上下文,在每个步骤中,选择器Actor获取用户话语的一个单词,并将其分类为属于相关或非相关类别。换句话说,选择器Actor的操作是选择或丢弃单词。如果选择器Actor决定保留单词,我们将根据单词更新对话的上下文。

假设选择器Actor按顺序判断用户话语中的单词,我们需要知道单词的哪种排列在提高目标项目的排名方面最有效。

因此,我们设计了一个排列Actor,它接受用户的话语,并返回选择器Actor使用的有效单词顺序。RelInCo的工作流程如图1所示。

我们模型中的两个参与者都是通过近端策略优化(PPO)[33]使用Actor-Critic算法进行训练的,这提高了对参与者的监督。

我们将奖励函数建模为效用计算器,以便它可以针对不同的评估指标进行优化,例如平均精度或归一化贴现累积增益(NDCG)[12]。

在理想情况下,效用计算器可以通过用户满意度信号来设计,以获取相关性。

第3节介绍了这项工作的核心贡献:•我们介绍了RelInCo,这是一个基于强化的模型,用于从会话搜索和推荐中的用户话语中提取相关信息。RelInCo似乎是在会话搜索和推荐中提取相关信息的第一次尝试。

•RelInCo引入了两个Actor,一个是选择器Actor,另一个是排列Actor,它们可以同时训练,也可以按顺序训练,以在用户的对话搜索和推荐过程中找到最有效的单词。

•我们设计了一个高效的效用计算器作为我们的奖励函数,以捕捉相关性并指导演员和评论家。

在两个公共会话搜索和推荐数据集上进行的一组实验进一步证明了RelInCo在NDCG等标准评估措施方面的有效性。我们从一些有用的背景和注释以及相关工作的概述开始。

Interpreting Patient Descriptions using Distantly Supervised Similar Case Retrieval(使用远程监督的相似病例检索解释患者描述)

image-20230415195731160

ABSTRACT

生物医学自然语言处理通常涉及对患者描述的解释,例如用于诊断或推荐治疗。目前基于生物医学语言模型的方法已被发现难以完成此类任务。

此外,检索增强策略的成功有限,因为很少能找到表达解释给定患者描述所需的确切知识类型的句子。出于这个原因,我们建议依靠最近邻策略,而不是试图检索明确的医学知识。首先,我们检索与给定的患者描述相似的文本段落,因此很可能描述处于类似情况下的患者,同时也提到了一些假设(例如。

患者的可能诊断)。然后,我们根据检索到的段落的相似性来判断假设的可能性。

然而,识别类似病例是一项挑战,因为对类似患者的描述表面上可能看起来相当不同,尤其是因为它们往往包含大量不相关的细节。

为了应对这一挑战,我们提出了一种依赖于远程监督交叉编码器的策略。尽管概念简单,但我们发现这种策略在实践中是有效的。

INTRODUCTION

生物医学自然语言处理(NLP)面临的一个重要挑战是对患者描述进行推断。例如,考虑到患者表现出的症状的描述,可能结合其他相关因素,如年龄、性别或病史,我们可能想推断诊断或确定推荐的药物。表1显示了多项选择QA评估数据集的一个示例来说明这种设置。为了支持生物医学NLP,已经引入了几种适用于生物医学领域的BERT[17]版本,包括ClinicalBERT[3]、SciBERT[9]、BioBERT[35]和PubMedBERT[21]。由于标准语言模型(LMs)能够做出各种事实和常识推断[16,49,76],人们可能会期望这些生物医学LMs同样能够完成任务,例如从症状推断诊断。然而,先前的工作表明,现有的生物医学LMs经常难以完成此类任务。例如,Alghanmi等人[2]发现,在从患者描述推断诊断方面,标准BERT模型与专门的生物医学LMs具有显著的竞争力。Meng等人[44]进一步引入了一项探索任务,用于评估生物医学LMs获取的知识,这也揭示了重大问题。

image-20230415214547221

为了缓解生物医学LMs的局限性,一种自然的策略是用表达相关知识的句子来增加患者描述,这些知识是从一些文本语料库中检索的。类似的策略已经被证明对事实和常识性的问题回答很有用[29,45,60]。然而,当涉及到解释患者描述时,这种策略的潜力就不那么明确了。例如,Sushil等人[62]使用信息检索引擎在生物医学语料库中找到相关句子,然后将其添加到自然语言推理(NLI)实例的前提中。在MedNLI[55]的实验中,他们没有发现统计学上的显著改善这一扩充战略的一部分。虽然检索到的句子有助于澄清一个不寻常术语的含义,或提供特定的知识,但我们不太可能找到一个句子来捕捉从给定的患者描述中推断诊断或推荐特定治疗所需的特定知识。事实上,这种推断往往是临床判断的问题,而不是应用可以用一句话表达的规则式知识[56,68]。

我们的目的不是寻找直接表达医学知识的句子,而是寻找与给定患者描述本身相似的段落。潜在的直觉是,这些段落很可能描述了处于类似情况下的患者,无论对这些患者来说是真的,从给定的描述来看,对患者来说也是真的。我们特别关注也提到一些感兴趣的假设的段落,例如。

在问答(QA)的上下文中的候选答案。

然后,我们根据给定的患者描述和检索到的段落之间的相似性来估计这一假设成立的可能性。类似病例的使用在临床决策中发挥着重要作用[6,8,46,63],因此最近邻策略的使用是自然的,并且在概念上是直接的。

此外,从应用程序的角度来看,检索类似案例的想法也很有吸引力,因为这些案例可以用作给定预测的支持证据。这对生物医学领域尤为重要,因为在生物医学领域,可解释性和透明度显然至关重要。

然而,这种最近邻策略的成功关键取决于我们以适当的方式识别不同患者描述之间共性的能力,这本身就是一个具有挑战性的问题。例如,即使两名患者经历了类似的情况,他们的病例细节也可能在许多方面有所不同,其中一些可能很重要,也可能无关紧要。此外,患者描述可能在提供的细节水平以及整体写作风格上有所不同。为了说明这些问题,表2显示了我们的模型从MedQA基准[27]中检索到的给定问题的顶部段落。可以看出,这两种患者描述都是指在经历丧亲之痛后不久突然出现异常行为。然而,除了这些中心对应关系之外,这两种描述的细节有很大不同。因此,识别相关的患者描述是一个不平凡的问题,需要专业的临床知识。鉴于这些挑战,用于估计文本相似性的现成模型显然不足以识别相关的患者描述。此外,据我们所知,没有可用于训练监督模型的标记数据集。这使得解释患者描述的问题与开放域QA等环境本质上不同,在开放域QA中,相关段落的黄金注释通常可用,系统可以依赖于密切相关任务的迁移学习。

image-20230415214617023

在本文中,我们提出了一种远程监控策略来应对这些挑战。我们从直觉开始,即在一个重要方面,解释患者描述比开放领域QA更容易:上下文文章中假设(或答案候选者)的存在使得这篇文章很可能至少在某种程度上是相关的,这与我们正在寻找类似的案例而不是特定的知识这一事实有关。例如,大多数提到短暂精神障碍的患者描述都会告诉我们这是表2中问题的正确诊断的可能性。相比之下,提及巴黎的段落可能与询问法国首都的问题完全无关。我们的中心假设是,患者描述的这一方面可以弥补缺乏相关监督数据来学习识别类似病例的不足。特别是,我们提出了一种策略来训练交叉编码器来比较患者描述,即一个微调的语言模型,该模型以两个患者描述为输入,并估计它们的相似程度。为此,我们生成了一个远程监督训练集,通过使用基线模型对候选段落进行排序,并依赖于这样一个假设,即如果该段落提到了可以从目标患者描述中推断出的假设,则该段落是相关的。从概念上讲,这在精神上类似于开放域QA的远程监督策略(见第2节)。然而,一个关键的区别在于,我们不能使用标准的检索模型来对候选段落进行排名。我们的解决方案依赖于以下两个步骤:

•我们在一组患者描述上训练一个无监督的文本编码器。该编码器用于选择候选段落的初始集合。它有两个主要优势:(i)它允许高效密集地检索一小部分候选段落;(ii)它可以依赖于患者描述的一些临床知识,因为它是在这个领域训练的。

•然后使用预先训练的交叉编码器对候选段落的初始集合进行排序。我们初始化这个交叉编码器并在标准文本相似性数据集上对其进行预训练。尽管没有接受过关于患者描述的培训,但我们表明,这一重新排序步骤提高了我们方法的有效性。直观地说,域外交叉编码器可能是有效的,因为所有候选段落(至少在某种程度上)都是相关的。因此,该模型可以专注于识别更具体的共性,这可能不需要那么多临床知识。

我们的实验结果表明,我们的总体方法非常有效,提高了关于患者描述的问答技术[27]。

Structure and Semantics Preserving Document Representations(保留文档表示的结构和语义)

image-20230415200023612

ABSTRACT

从语料库中检索相关文档通常基于文档内容和查询文本之间的语义相似性。包含文档之间的结构关系可以通过解决语义差距来有益于检索机制。

然而,结合这些关系需要易于处理的机制,这些机制可以平衡结构和语义,并利用流行的预训练/微调范式。我们在这里提出了一种通过集成文档内内容和文档间关系来学习文档表示的整体方法。我们的深度度量学习解决方案分析了关系网络中复杂的邻域结构,以有效地对相似/不相似的文档对进行采样,并定义了一个新的五元组损失函数,该函数同时鼓励语义相关的文档对在表示空间中更近,结构无关的文档对远离。此外,文档之间的间隔可以灵活地变化,以对关系强度的异质性进行编码。该模型是完全可微调的,并且在推理过程中本机支持查询投影。

我们证明,对于文档检索任务,它在多个数据集上优于竞争方法。

INTRODUCTION

文档检索系统基于文本查询来显示用户感兴趣的文档。文档检索的算法解决方案是几个应用程序的构建块如问答[5]、摘要[43]、推荐[3]以及搜索和导航[35],具有基础研究兴趣。

由于长格式文本、语料库大小、查询文档词汇不匹配以及查询和文档内容之间的长度不对称,识别和检索有限数量的相关文档本质上是具有挑战性的。现代方法[14,23,26]遵循多级级联排名体系结构,其早期检索通常包括在上下文感知语义特征空间[42]中表示文档,将查询投影到相同的表示空间中,并最终基于查询表示和文档表示之间的相似性对文档进行排名。

这种检索机制的一个经常被忽视的方面是文档之间的关系。在现实世界中,文档不一定是独立的,而是基于一些共享的基本特征在网络中相互连接。例如,学术出版物通过引用、超链接网页、具有本体的临床记录以及通过用户档案的社交媒体进行关联。嵌入语料库结构中的知识可以克服查询和文档之间由于词汇、粒度、隐含概念和间接关联而产生的差异。因此,孤立地计算用于检索的文档表示,忽略有价值的语料库网络结构是次优的[10,21]。

将语料库网络拓扑编码到文档表示空间的现有努力主要采用基于图的架构[6]。这些方法的一个主要缺点是,它们的转导性质禁止直接支持样本外预测,而样本外预测是推理时确定查询表示所必需的。此外,由于资源限制,将最先进的预训练/微调上下文语言模型范式[11]纳入图神经系统是不可行的。

基于度量学习[19]的推理是图遍历的有效替代方案,支持微调和归纳推理。这里的想法是使用一个简单的距离函数,根据文档在表示空间中的相似性来分离文档。然而,目前使用度量学习的尝试[28]只关注语义文本相似性,并且需要明确的标签来区分相似和不相似的文档。这些标签通常很难获得,即使可用,它们的扁平性质也无法捕捉大型语料库中固有的丰富而复杂的网络交互。由于纠缠邻域结构引起的组合爆炸,自动确定这些标签是不平凡的。此外,现有模型使用暹罗[2]或三元组[18]架构,这些架构不适合对相似性的不同方面进行编码。

我们在这里通过提出一种新的基于深度度量学习的文档表示学习方法来解决这些问题这既考虑了文档内内容又考虑了文档间关系。我们的解决方案不需要任何显式标签,而是动态构建一个相对的相似性度量,以在表示空间中分离文档(见图1)。

具体来说,离线分析语料库结构,以按连通性的递增顺序排列文档。这些排序的文档被反复细分,以对结构相似和不相似的对进行采样,而等效的语义对是根据文档内容构建的。这种采样过程覆盖了关系网络中的广泛邻域,可以很好地扩展到大型语料库。

我们用五元组损失函数扩展了经典的三元组损失[12],该函数同时鼓励语义相关的文档对更接近,结构无关的文档对相距很远。这种扩展还解决了三重态损失的一个关键限制,其中分离裕度是先验固定的。相反,我们允许基于结构相似程度的边际以几何方式增长。这种灵活性促进了表示空间中的相对分离顺序,并能够区分强关系和弱关系。与图神经方法相比,我们学习的模型允许在推理时无缝地计算查询表示。此外,它支持长格式文本,并在训练期间自适应地微调Transformer[37]语言模型权重,从而实现特定任务的定制。

我们在多个公开可用的数据集[4,10,13,32]上进行了实验,并表明所提出的模型优于竞争方法。我们还包括对学习到的嵌入的分析。

我们的贡献如下:

•超越语义:一种学习文档表示的整体方法,平衡本地文档上下文和全局关系网络,从而保留语义和结构。

•结构挖掘:一种新的机制,基于邻域结构的分治采样来构建相似和不相似的文档对。

•相对边距:对表示空间的歧视性处理,通过可变的分离单位对文档之间的细微关系进行编码。

•五元组损失:一种高效的多输入神经架构,并行聚合对应于结构和语义方面的两个不同损失函数。

•归纳和微调:一个以检索为中心的模型,本机支持查询投影,可以针对特定任务的目标进行微调。

在下文中,第2节将我们的工作与相关工作进行了比较,第3节详细描述了模型,第4节介绍了结果,第5节总结了我们的发现。

表示学习


Comprehensive Fair Meta-learned Recommender System(综合公平元学习推荐系统)

image-20230411094516242

相关概念

元学习推荐系统

元学习推荐系统的核心思想是学习解决快速适应任务tu 关于新用户。我们遵循最具代表性的元学习推荐器框架[7,18,34]来展示工作流程。为了学习新任务的参数,元模型旨在通过从各种类似任务中学习来提供有希望的初始化。然后,根据学习到的参数,可以在具有有限交互的新任务(用户)上进一步微调元模型,以实现个性化推荐。元学习推荐系统的工作流程如图2所示。该框架根据以下过程迭代地更新元模型:
image-20230411100725494

image-20230411100735531

image-20230411100801490

问题

  1. 推荐系统需要元优化来解决冷启动
  2. 元学习忽视了公平性问题
    1. 个体公平是指在用户建模过程中保护敏感属性免受对手攻击。
      已经有一些工作[2,35]依赖于对抗性学习技术[13],这些技术旨在匹配给定每个敏感属性值的输出的条件分布。
    2. 反事实公平要求用户的推荐结果在反事实世界中保持不变,其中用户的特征除了用户指定的某些敏感特征之外保持不变。Li等人[20] 首先通过生成独立于特征的用户嵌入来满足反事实公平性要求,从而探索了这一概念在建议中。
    3. 群体公平旨在使推荐系统不偏袒特定的人口群体。这种公平性要求通常通过特定的公平性正则化项来实现[36,42]。然而,这些方法并不是为了解决冷启动问题而设计的,如果在这种情况下使用,可能会产生次优性能。
    4. 此外,这些方法只考虑一种特定的公平性。换句话说,推荐系统中不同类型的公平性之间的影响和联系尚未得到研究

解决

  1. 系统地研究了推荐系统中的三种公平——个人公平、反事实公平和群体公平,并提出通过多任务对抗性学习方案来满足这三种公平
  2. 提供了一个通用的训练范式,适用于不同的元学习推荐系统
  3. 在三个真实世界的数据集上证明了CLOVER在具有代表性的元学习用户偏好估计器上的有效性
  4. CLOVER在不恶化整体冷启动推荐性能的情况下实现了全面公平

ABSTRACT

在推荐系统中,一个常见的挑战是冷启动问题,其中系统中的新用户的交互非常有限。为了应对这一挑战,最近,许多工作将元优化思想引入到推荐场景中,即学习仅通过几个过去的交互项目来学习用户偏好。其核心思想是学习所有用户的全局共享元初始化参数,并分别将其快速调整为每个用户的局部参数。他们的目的是通过不同用户的偏好学习来获得一般知识,以便利用学习到的先验知识和少量的训练数据快速适应未来的新用户。
然而,先前的工作表明,推荐系统通常容易受到偏见和不公平的影响。尽管元学习在冷启动提高推荐性能方面取得了成功,但公平性问题在很大程度上被忽视了。

在本文中,我们提出了一个全面的公平元学习框架,名为CLOVER,以确保元学习推荐模型的公平性。我们系统地研究了推荐系统中的三种公平——个人公平、反事实公平和群体公平,并提出通过多任务对抗性学习方案来满足这三种公平。我们的框架提供了一个通用的训练范式,适用于不同的元学习推荐系统。我们在三个真实世界的数据集上证明了CLOVER在具有代表性的元学习用户偏好估计器上的有效性。实证结果表明,CLOVER在不恶化整体冷启动推荐性能的情况下实现了全面公平。

INTRODUCTION

个性化推荐系统已被广泛用于挖掘各种网络服务中的用户偏好,如电子商务[37]、搜索引擎[25]和社交媒体[9],这在很大程度上缓解了信息过载问题。在实践中,大多数推荐系统面临的共同挑战是冷启动问题。当数据稀缺新用户频繁出现时,推荐系统必须迅速适应。在过去的几年里,元学习方法[7,18,23,34]已被广泛用于创建推荐系统,该系统通过计算上可负担的微调从有限的数据中快速学习。元学习的核心思想是学会学习,即学会很好地解决训练任务,并对未来任务具有泛化能力元学习推荐系统通过交错训练过程进行训练,包括对每个用户进行微调的内环更新和产生所有用户初始化的外环更新

然而,推荐系统通常容易受到偏见和不公平的影响[20,35]。尽管元学习可以更好地帮助新用户找到潜在的有趣项目,但在这种情况下对公平的理解和缓解在很大程度上还没有得到充分的探索。

最近,人们越来越关注推荐系统中的公平性考虑[2,4,12,19,35]。推荐中潜在的不公平问题将损害用户或提供商的满意度以及他们在平台中的利益。因此,解决潜在的不公平问题至关重要。推荐系统中的公平性度量可以分类如下

  1. 个体公平是指在用户建模过程中保护敏感属性免受对手攻击。
    已经有一些工作[2,35]依赖于对抗性学习技术[13],这些技术旨在匹配给定每个敏感属性值的输出的条件分布。
  2. 反事实公平要求用户的推荐结果在反事实世界中保持不变,其中用户的特征除了用户指定的某些敏感特征之外保持不变。Li等人[20] 首先通过生成独立于特征的用户嵌入来满足反事实公平性要求,从而探索了这一概念在建议中。
  3. 群体公平旨在使推荐系统不偏袒特定的人口群体。这种公平性要求通常通过特定的公平性正则化项来实现[36,42]。然而,这些方法并不是为了解决冷启动问题而设计的,如果在这种情况下使用,可能会产生次优性能。
  4. 此外,这些方法只考虑一种特定的公平性。换句话说,推荐系统中不同类型的公平性之间的影响和联系尚未得到研究

为了解决这些限制,本文提出了一个新的综合公平元学习推荐框架CLOVER,用于确保冷启动推荐模型的公正性。
它提供了一种通用的训练范式,适用于任何元学习推荐系统。
我们将各种公平性约束形式化为对抗学习问题,其中包括两个主要组成部分
寻求推断用户敏感属性信息的不公平鉴别器以及防止鉴别器推断敏感信息的公平结果生成器
我们系统地说明了个体公平性、反事实公平性和群体公平性在推荐系统中的三种公平性,并通过多任务对抗学习方案以统一的方式改进它们。
图1显示了现有公平推荐系统和具有冷启动的元学习公平推荐系统之间的差异,在这两种情况下,我们都需要考虑在内部循环和外部循环中实施公平性。总之,本文的主要贡献概述如下:

  1. 我们系统地说明了推荐系统中的综合公平问题,并将增强综合公平作为多任务对抗性学习问题
  2. 我们提出了CLOVER,它是经过精心设计的,旨在通过交错训练程序在元学习框架中施加公平性。据我们所知,我们是第一个探索公平元学习推荐系统的人。
  3. 我们在三个真实世界的数据集上展示了具有代表性的元学习用户偏好估计器的CLOVER。实证结果表明,CLOVER在不恶化整体冷启动推荐性能的情况下实现了全面公平。

本文的其余部分组织如下。我们在第2节中展示了初步定义,并在第3节中介绍了拟议的CLOVER。然后我们在第4节中给出了实验结果。

第5节简要讨论了现有的工作。最后,我们在第6节中对本文进行了总结。

image-20230411100050796

Self-Supervised Hypergraph Transformer for Recommender Systems(自监督超图Transformer用于推荐系统)

image-20230410100459052

超图、Transformer、自增强学习、拓扑嵌入

相关概念

协作过滤

协作过滤是一种常见的推荐算法,也称为基于用户或基于物品的协同过滤。它建立在用户行为数据之上,通过计算用户与物品(商品、电影、歌曲等)之间的相似性,预测用户对某些物品的评分或偏好,然后给用户推荐那些与其历史评分相似的物品。具体来说,基于用户的协同过滤算法会根据用户之间的共同评分历史进行个性化的推荐,而基于物品的协同过滤算法则会根据物品之间的共同被评分历史进行推荐。该算法无需显式地对物品或用户建模,且能够有效地解决数据稀疏的问题。

偏斜分布

偏斜分布是一种统计学术语,用来形容数据分布的形态。当数据分布的图像中,多数数据集中在曲线的一端,而少数数据在曲线的另一端时,就会产生偏斜。如果偏斜方向是尾部向右,则称为正偏态;反之,偏斜方向是尾部向左,则称为负偏态。 [2]

图神经CF(Collaborative Filtering协同过滤)范式

“图神经CF(Collaborative Filtering)范式”是指利用图神经网络(GNN)来构建用户-物品交互图,并在此基础上实现推荐系统的一种方法。这种方法通过对交互图进行建模,学习用户和物品的低维嵌入(embedding),并根据它们的交互行为预测用户可能感兴趣的物品。相比传统的矩阵分解方法,图神经CF范式充分利用了用户之间或物品之间的关系,能够更准确地捕捉复杂的用户偏好和物品特征,从而提升推荐系统的性能。[2][1]

超图

在某些特定的领域,一条边可能链接的不止两个点,我们便引入了超图
比如:同一个班级,一个班级可以连接很多个学生;一个IP下有很多个用户,我们可以用超边来表示这个班级或这个IP;
一个超图可以拥有任意数量的节点,如果所有超边都连接两个节点那么就退化为简单图;

正则化

正则化是为了防止过拟合, 进而增强泛化能力

问题

  1. 首先,由于许多因素,数据噪声在许多推荐场景中普遍存在。例如,用户可能由于推荐流行商品过多而点击不感兴趣的产品[42]。在这种情况下,用户-物品交互图可能包含“不相关兴趣”的连接
  2. 其次,数据稀疏性和偏斜分布问题仍然阻碍了有效的用户-项目交互建模,导致大多数现有的基于图的CF模型偏向于流行项目[14,41]。因此,由于高质量的训练信号可能很小,当前方法的推荐性能随着用户数据稀缺问题而严重下降
    虽然有一些最近开发的推荐方法(SGL[31]和SLRec[37])利用自我监督学习来改进用户表示,但这些方法主要通过基于概率的随机掩码操作来生成额外的监督信息,这可能在数据增强过程中保持一些噪声交互并丢弃一些重要的训练信号

解决

鉴于上述挑战,本工作提出了一种自监督超图Transformer(SHT),以增强基于图的CF范式的鲁棒性和泛化性能。
具体来说,我们将超图神经网络与拓扑感知Transformer集成,以使我们的SHT能够保持全局跨用户协作关系
局部图卷积网络上,我们首先对拓扑感知的用户嵌入进行编码,并将它们注入Transformer架构,用于在整个用户/项目表示空间内进行超图引导的消息传递。(全局协作)

此外,我们将局部协作关系编码器的建模与全局超图依赖学习统一在生成自监督学习框架下。
我们提出的新的自监督推荐系统通过图拓扑去噪方案提取辅助监督信号用于数据增强
引入了一个基于图的元转换层,将基于hyergraph的全局级表示投影到用户和项目维度的基于图的局部级交互建模中。(数据增强 增加鲁棒性)

论文部分内容:
自增强学习在SHT中具有有效的噪声识别能力,它使用超图Transformer编码的全局信息重新校准拓扑感知嵌入
i)基于超图Transformer,SHT不仅实现了语义相关用户/项目之间的全局消息传递,而且还利用多头注意力细化了超图结构
ii)全局到局部的自增强学习从高级超图变换器中提取知识,以正则化拓扑感知嵌入学习,从而缓解数据噪声问题

我们新提出的SHT是一种模型不可知的方法,在现有的基于图的推荐系统中作为插件学习组件。
具体而言,SHT能够实现局部和全局级别的协作关系的协作,以促进基于图的CF模型从噪声和稀疏的用户交互数据中学习高质量的用户嵌入。

image-20230410120437313

受图卷积网络[6,30]最近在捕获局部图结构方面取得的成功的启发,我们将每个节点的相邻子图结构编码到图拓扑图嵌入中,以将拓扑位置信息注入到我们的图Transformer中。

ABSTRACT

图形神经网络(GNN)已被证明是协作过滤(CF)的有前途的解决方案,可以对用户-项目交互图进行建模。
现有的基于GNN的推荐系统的关键思想是沿着用户-项目交互边缘递归地执行消息传递,以细化编码嵌入

然而,尽管它们是有效的,但目前的大多数推荐模型都依赖于足够和高质量的训练数据,因此学习到的表示可以很好地捕捉准确的用户偏好。在许多实际推荐场景中,用户行为数据通常是有噪声的,并且表现出偏斜的分布,这可能会导致GNN-based模型中表示性能的不佳。
在本文中,我们提出了SHT,这是一种新的自监督Hypergraph Transformer框架(SHT),通过明确地探索全局协作关系,扩充用户表示。
首先使用Hypergraph Transformer网络来增强图神经CF范式,以保持用户和物品之间的全局协作效应
通过提炼全局上下文,我们提出了一个交叉视图生成自监督学习组件,用于在用户-物品交互图上进行数据增强,以增强推荐系统的鲁棒性。广泛的实验表明,SHT可以显著提高各种最先进的基准测试的性能。进一步的消融研究显示了我们的SHT推荐框架在缓解数据稀疏性和噪声问题方面的卓越表示能力。源代码和评估数据集可在以下网址找到:https://github.com/akaxlh/SHT。

INTRODUCTION

在各种网络应用程序中,如电子商务系统[5]、流媒体视频网站[17]和基于位置的生活方式应用程序[4],推荐系统在缓解用户信息过载方面变得越来越重要。为了准确推断用户偏好,对用户和项目信息表示进行编码是基于观察到的用户-项目交互的有效协作过滤(CF)范式的核心部分[7,8,20]。

早期的CF模型使用矩阵分解(MF)[13]将交互数据投影到潜在用户和项目嵌入中。由于深度学习的强大表示能力,已经开发了各种神经网络CF模型来将用户和项目投影到潜在的低维表示中,例如自动编码器[15]和注意力机制[2]
近年来,用于对图形结构数据建模的图形神经网络(GNN)得到了发展[27,30]。一个方向是沿着用户-项目交互执行信息传播,以基于递归聚合模式来细化用户嵌入。例如,在图卷积网络上,PinSage[38]和NGCF[26]试图通过捕获用于推荐的基于图的CF信号来聚合相邻信息。为了简化基于图的消息传递,LightGCN[6]在嵌入传播过程中省略了繁重的非线性变换器,并提高了推荐性能。为了进一步增强基于图的用户-项目交互建模,一些后续研究提出用解纠缠的图神经框架学习意图感知表示(例如,DisenHAN[29]),用多关系图神经模型区分用户的行为感知嵌入(例如,MB-GMN[34])。

尽管上述基于图的CF模型通过提供最先进的推荐性能而有效,但在现有方法中,几个关键挑战尚未得到很好的解决。

  1. 首先,由于许多因素,数据噪声在许多推荐场景中普遍存在。例如,用户可能由于推荐流行商品过多而点击不感兴趣的产品[42]。在这种情况下,用户-物品交互图可能包含“不相关兴趣”的连接
  2. 其次,数据稀疏性和偏斜分布问题仍然阻碍了有效的用户-项目交互建模,导致大多数现有的基于图的CF模型偏向于流行项目[14,41]。因此,由于高质量的训练信号可能很小,当前方法的推荐性能随着用户数据稀缺问题而严重下降
    虽然有一些最近开发的推荐方法(SGL[31]和SLRec[37])利用自我监督学习来改进用户表示,但这些方法主要通过基于概率的随机掩码操作来生成额外的监督信息,这可能在数据增强过程中保持一些噪声交互并丢弃一些重要的训练信号

贡献鉴于上述挑战,本工作提出了一种自监督超图Transformer(SHT),以增强基于图的CF范式的鲁棒性和泛化性能。
具体来说,我们将超图神经网络与拓扑感知Transformer集成,以使我们的SHT能够保持全局跨用户协作关系
局部图卷积网络上,我们首先对拓扑感知的用户嵌入进行编码,并将它们注入Transformer架构,用于在整个用户/项目表示空间内进行超图引导的消息传递

此外,我们将局部协作关系编码器的建模与全局超图依赖学习统一在生成自监督学习框架下。
我们提出的新的自监督推荐系统通过图拓扑去噪方案提取辅助监督信号用于数据增强
引入了一个基于图的元转换层,将基于hyergraph的全局级表示投影到用户和项目维度的基于图的局部级交互建模中。
我们新提出的SHT是一种模型不可知的方法,在现有的基于图的推荐系统中作为插件学习组件。
具体而言,SHT能够实现局部和全局级别的协作关系的协作,以促进基于图的CF模型从噪声和稀疏的用户交互数据中学习高质量的用户嵌入。

这项工作的主要贡献总结如下:

  1. 在这项工作中,我们提出了一种新的自监督推荐模型——SHT,通过将超图神经网络与拓扑感知转换器相集成,来增强图协同过滤范式的鲁棒性。
  2. 在所提出的SHT方法中,所设计的超图学习组件通过可学习的多通道超边缘引导消息传递模式,对整个用户表示空间内的全局协作效果进行编码。此外,将协作关系的局部和全局学习视图与交互图拓扑去噪和辅助知识提取的协作监督相结合。
  3. 大量实验表明,我们提出的SHT框架在15种不同类型的推荐基线上实现了显著的性能改进。此外,我们通过烧蚀研究进行了实证分析,以证明我们的模型设计的合理性。

User-Event Graph Embedding Learning for Context-Aware Recommendation(用于上下文感知推荐的用户事件图嵌入学习)

上下文感知、用户偏好获取、意图节点注意力

image-20230410100513951

问题

  1. 大多数上下文感知推荐方法侧重于改进特征交互层,而忽略了嵌入层,他们的嵌入层都是直接随机初始化的
  2. 随机初始化的嵌入层在实践中经常受到上下文特征的稀疏性以及用户和上下文之间的交互的影响
    需要解决这两个稀疏性的挑战
  3. 太多实例相关的上下文特征在聚合信息时可能会受到噪声的影响

解决方式

  1. UEG-EL包含三个模块:解决问题1、2
    1. 我们首先为CARS构建了一个新的用户事件图,其中根据所提出的意图节点注意力(INA),使用上下文特征来构建一些额外的用户意图节点。这些意向节点可以作为枢纽,在用户、项目和上下文特征之间建立复杂的交互,并且可能有助于捕捉不同上下文特征的用户偏好
    2. 设计了一个用户-事件协同图卷积模块,通过在用户-事件图上执行新的卷积策略,获取所有特征的精炼嵌入,其中每个意图节点充当中心枢纽,在不同特征之间高效传播信息
      其中用户、项目和上下文特征都可以通过构建的意图节点从图嵌入学习的信息传播过程中受益。
    3. 配备了一个推荐模块集成一些现有的上下文感知推荐模型,其中特征嵌入被直接初始化为获得的精炼嵌入
  2. 解决问题3:出了一种简单但有效的变体,即UEG-EL-V,以修剪上下文特征的信息传播

ABSTRACT

大多数上下文感知推荐方法侧重于改进特征交互层,而忽略了嵌入层

然而,具有随机初始化的嵌入层在实践中经常受到上下文特征的稀疏性以及用户(或项目)和上下文之间的交互的影响。在本文中,我们提出了一种新的用户事件图嵌入学习(UEG-EL)框架来解决这两个稀疏性挑战。

具体来说,我们的UEG-EL包含三个模块:

  1. 我们首先为CARS构建了一个新的用户事件图,其中根据所提出的意图节点注意力(INA),使用上下文特征来构建一些额外的用户意图节点。这些意向节点可以作为枢纽,在用户、项目和上下文特征之间建立复杂的交互,并且可能有助于捕捉不同上下文特征的用户偏好
  2. 设计了一个用户-事件协同图卷积模块,通过在用户-事件图上执行新的卷积策略,获取所有特征的精炼嵌入,其中每个意图节点充当中心枢纽,在不同特征之间高效传播信息
    其中用户、项目和上下文特征都可以通过构建的意图节点从图嵌入学习的信息传播过程中受益。
  3. 配备了一个推荐模块集成一些现有的上下文感知推荐模型,其中特征嵌入被直接初始化为获得的精炼嵌入

此外,我们发现了基本框架的一个独特挑战,即与太多实例相关的上下文特征在聚合信息时可能会受到噪声的影响。因此,我们进一步提出了一种简单但有效的变体,即UEG-EL-V,以修剪上下文特征的信息传播。最后,我们在三个公共数据集上进行了广泛的实验,以验证我们的UEG-EL及其变体的有效性和兼容性。

INTRODUCTION

先前的研究表明用户的行为常常受到上下文信息的影响,因此提出了上下文感知推荐系统(CARS)来将这些上下文信息整合,以向用户提供更准确的精细化推荐[3,21,37]。上下文信息可以是明确观察到的,也可以从嵌入向量的潜在空间中推断出来[6,26],并且可以在推荐任务的预过滤、后过滤或建模阶段中使用[1]。

对于CARS的现有工作大多集中在建模阶段,并可以根据所采用的模型架构分为两类:

  1. 第一类是基于一些机器学习方法推荐任务扩展到多维设置,以模拟上下文信息,特别是基于矩阵分解,张量分解和因子分解机的方法[2,4,14,23,36,38];2)为了改进特征之间的高阶和非线性关系建模
  2. 第二类引入了一些复杂的神经网络结构到CARS中,如注意机制[22,39],卷积网络[10,34]和图学习技术[5,19,30]。

尽管现有的CARS方法已经显示出了很好的结果,但大多数方法都专注于改进模型中的特征交互层,以挖掘更多有益的信息进行推荐,而忽略了嵌入层
然而具有随机初始化的嵌入层在实践中受到上下文特征的稀疏性以及用户与上下文特征之间的交互的影响

详细介绍这两种挑战:

上下文感知推荐模型的性能通常在很大程度上依赖于上下文特征的学习
然而,在真实的推荐系统中许多稀疏的上下文特征,即它们很少出现在训练集中。
验证这一观察结果,如图1的右栏所示,我们可视化了实验中使用的三个数据集中每个数据集的上下文特征的频率分布
我们可以看到,大多数上下文特征的频率都很低
发现挑战:由于训练示例不足,大多数现有方法很难学习到这些稀疏上下文特征的良好嵌入,即模型性能将受到随机初始化的影响。我们将这一挑战称为特征稀疏性
此外,准确捕捉上下文特征和用户之间的关系也可以有利于推荐性能
然而,从图1的左栏和中栏,我们可以观察到相关上下文特征的数量相对于每个数据集中的用户的长尾分布(拥有极低值的个体,数量却占总体的绝大多数)。
因此,由于上下文特征的偏好信息不足,现有方法可能会对这些不活跃的用户或不受欢迎的项目产生性能瓶颈。我们将这种挑战称为交互稀疏性

image-20230407105740833

图1:在Yelp NC(顶行)、Yelp OH(中行)和Amazon Book(底行)上,与每个用户(左列)和项目(中列)相关的上下文特征数量的分布,以及上下文特征的频率统计(右列)

在其他推荐任务中,集成和利用图表示在缓解数据稀疏性方面是有效的[9,13,27]。

介绍算法具体流程:

受此启发,在本文中,
我们首先为CARS构建了一个新的用户事件图,其中根据所提出的意图节点注意力(INA),使用上下文特征来构建一些额外的用户意图节点。这些意向节点可以作为枢纽,在用户、项目和上下文特征之间建立复杂的交互,并且可能有助于捕捉不同上下文特征的用户偏好
基于用户事件图,我们集成并利用图嵌入学习来获得用户、项目和上下文特征的精细嵌入
具体来说,我们提出了一种用户-事件协同图卷积,其中用户、项目和上下文特征都可以通过构建的意图节点从图嵌入学习的信息传播过程中受益。

这意味着,被困在上述两个稀疏性挑战中的用户、项目和上下文特征的节点可以获得更多的协同信息,以促进学习更好的嵌入表示。所获得的所有特征的精细嵌入稍后可以用于某个现有的CARS模型中,以提高性能。因此,我们将上述所有模块集成在一起,得到一个通用的嵌入学习框架,称为UEG-EL。特别是,我们还观察到UEG-EL在实际应用中的一个独特挑战,即与太多实例相关的上下文特征在聚合信息时可能会受到噪声的影响,因此提出了一种简单但有效的变体来缓解噪声

最后,我们在三个公共数据集上进行了广泛的实验,以验证我们的UEG-EL及其变体的有效性和兼容性。

4.7

CLARE: A Semi-supervised Community Detection Algorithm(CLARE:一种半监督的社区检测算法)

image-20230404194030465

ABSTRACT

社区检测是指发现密切相关的子图以理解网络的任务。然而,传统的社区检测算法无法精确定位特定类型的社区。这限制了它在实际网络中的适用性,例如在交易网络中区分欺诈组和正常组。最近,半监督社区检测出现作为一种解决方案。它旨在在仅有少量标记社区作为训练数据的情况下,在网络中寻找其他类似的社区。现有的方法可以视为基于种子的方法:先定位种子节点,然后围绕种子节点发展社区。然而,这些方法对所选种子的质量非常敏感,因为围绕误检测种子生成的社区可能是不相关的。此外,它们还存在独立问题,例如,缺乏灵活性和高计算开销

为了解决这些问题,我们提出了CLARE,它由两个关键组件Community Locator和Community Rewriter组成。我们的想法是,我们可以定位潜在的社区,然后对它们进行细化。

因此,我们提出了社区定位器,用于通过寻找与网络中的训练社区相似的子图来快速定位潜在社区。为了进一步调整这些已定位的社区,我们设计了社区重写器。它采用深度强化学习技术,提出智能决策,比如添加或删除节点以灵活地调整社区结构。通过深入的实验,我们验证了我们的工作在多个真实世界数据集上与先前最先进方法相比的有效性和效率。

INTRODUCTION

网络是一个强大的框架,可以表示来自社会、自然和学术领域的数据对象之间丰富的关系信息[2,25]。理解网络的一个关键步骤是识别和分析密切相关的子图,即社区

从网络中发现这样的子图的研究任务被称为社区检测问题[39],它可以揭示网络的结构模式和固有属性

然而,传统的社区检测算法无法精确定位特定类型的社区。在某些情况下,同一网络中有各种类型的社区,而人们可能只关注特定类型,即目标社区。传统的社区检测方法无法处理这些情况,因为它们仅依赖于整体结构信息进行推断[5,9,36],无法捕捉到某些目标社区的固有特征。例如,如图1所示,他们无法将交易网络中的欺诈群体与正常群体区分开来,而是详尽地识别这两种群体。

image-20230404200724619

图1:任务比较。这是一个交易网络的子图,有两个正常社区(绿色圆圈)和一个欺诈社区(红色圆圈)。传统的社区检测方法可能会识别出这两种社区。然而,半监督社区检测方法可以利用一些欺诈组来定位其余的欺诈社区

因此,一些研究人员转向半监督环境来识别目标社区。形式上,半监督社区检测被定义为利用某些社区作为训练数据来识别网络中的其他类似社区。有了这样的训练数据,它可以隐含地学习目标社区的独特特征[41]。半监督社区检测是一个很有前途的研究问题,在现实世界中有着广泛的应用。例如,它可以检测社交网络中的社交垃圾邮件发送者圈子,以避免恶意攻击[13]。

image-20230404200659022

图2:Bespoke(左)、SEAL(中)和我们提出的CLARE(右)的示例。Bespoke和SEAL首先定位种子节点,然后围绕种子节点发展社区。相反,我们提出了一种不同的解决方案:首先定位潜在的社区,然后进一步调整它们

已有关于半监督社区检测的工作,例如Bespoke[4]和SEAL[41]。如图2所示,它们可以概括为基于种子的方法:首先在网络中定位潜在的种子节点(中心节点),然后围绕种子开发社区。然而,这些方法对所选种子的质量非常敏感,因为在错误检测的种子周围产生的群落可能无关紧要。此外,这些方法也存在个别问题。例如,Bespoke将社区结构限制为1-ego网络,即中心节点及其邻居。这使得Bespoke缺乏灵活性,无法推广到具有任意结构的社区。SEAL通过引入生成对抗性网络(GAN)来缓解这一问题。它将社区的生成公式化为顺序决策过程,因为GAN的生成器将在每个步骤中添加一个节点。然而,由于以这种方式开发社区是非常昂贵的,因此它的计算开销很高。

为了解决上述挑战,我们从一个新的子图角度推断社区:首先定位潜在的社区,然后对其进行细化。具体来说,我们利用训练社区通过匹配来定位相似的子图,并根据它们的结构上下文进一步调整它们。好处有三方面:

  1. 子图比单个种子节点具有更多的结构模式和固有特征,有望带来更精确的结果定位
  2. 直接从子图规模预测社区可以避免从头开始生成社区的昂贵成本
  3. 随着全球结构模式的引入,提炼过程可以进一步优化所在社区。

受上述见解的启发,我们提出了一种新的半监督社区检测框架CLARE。它由两个关键组件组成,社区定位器和社区重写器。社区定位器可以通过寻找与训练相似的子图来快速定位潜在的社区。具体来说,我们将社区编码为向量,测量潜在空间中社区之间的相似性,然后根据与最近邻居匹配策略的相似性发现候选。

社区重写器可以进一步微调这些已定位的社区。它采用深度强化学习技术,提出灵活的动作(如添加或删除节点),以精细调整社区结构。

我们将这项工作的贡献总结如下:

  1. 我们从一个新的子图的角度研究了半监督社区检测问题。与现有的基于种子的方法不同,我们的解决方案可以被视为首先定位潜在的群落,然后对其进行提炼。
  2. 我们提出了一个新颖的框架CLARE,由社区定位器和社区重写器组成。社区定位器是提出了通过寻找与训练相似的子图来快速定位潜在社区。社区重写器可以进一步微调那些定位的社区。通过深度强化学习,它提供了添加或删除节点、灵活完善社区结构等操作。
  3. 我们在真实世界的网络以及包含各种类型社区的混合网络上进行实验。与社区检测和半监督社区检测基线相比,我们的模型取得了出色的性能,并在效率上保持竞争力。此外,即使遇到数据稀疏性或网络噪声,我们的模型也表现出鲁棒性。

4.3分割线

Towards a Native Quantum Paradigm for Graph Representation Learning: A Sampling-based Recurrent Embedding Approach(面向图表示学习的原生量子范式:一种基于采样的递归嵌入方法)

image-20230403203844402

ABSTRACT

图表示学习已经被广泛研究,最近的模型可以很好地结合节点特征和图结构。尽管取得了这些进展,但经典计算机在处理图形数据和解决下游任务(许多任务是NP难的)方面固有的可扩展性挑战仍然是现有经典图形学习模型的瓶颈。另一方面,众所周知,量子计算是一个很有前途的方向,因为它具有理论验证的可扩展性,以及近期接入物理量子机器的证据越来越多。与许多现有的经典量子混合机器学习模型不同,在本文中,我们采取了更积极的举措,开发了一种用于(归因)图表示学习的原生量子范式,据我们所知,这在文献中尚未实现。具体而言,我们的模型采用了量子计算中公认的理论和技术,例如量子随机游动,并将其适用于属性图。然后将节点属性量子状态序列输入到量子递归网络中,得到最终的节点嵌入。在三个公共数据集上的实验结果表明,我们的量子模型的有效性也优于经典学习方法GraphRNA,尤其是在经典计算机上的效率。尽管它仍然局限于用于模型参数训练的具有梯度下降的经典基于损失的学习范式,而我们的计算方案在不涉及经典计算机的情况下与量子计算兼容。事实上,这在很大程度上与许多混合量子图学习模型形成了对比,这些模型通常涉及必须在经典计算机上执行的许多步骤和模块。

INTRODUCTION

几十年来,本文所考虑的图表示,特别是节点嵌入,受到了广泛的关注。

除了节点分类或链路预测之外,它还促进了各种下游应用,如组合优化[6]。最近,基于机器学习的方法已经被很好地开发用于学习表达节点嵌入。尽管这类研究的主流仍然局限于经典计算范式,而经典计算范式可能仍然受到NP硬度等难题的根本限制

另一方面,在量子计算领域也有新兴的研究方向,即为图计算精心指定量身定制的算法。更进一步,机器学习的普遍性仍然吸引着人们努力开发使用量子计算机制的图学习方法,希望找到一种更好的方法来探索量子计算能力,其潜力在过去十年中得到了证明,或者启发新的学习方案来改进现有的机器学习方法,甚至在经典计算机上也是如此。在这篇论文中,我们有动机开发一种新的方法,既可以实现这两个目的,一种更为原生的量子学习范式,也可以在经典计算机上运行时高效,这是近期的现实。

事实上,在量子图表示学习方面已经有了积极的研究,表1中列出了具有代表性的作品,这些作品都可以将节点属性和图结构的信息结合到建模中。具体来说,在这里,我们展示了六个公认的技术方面,以便于在每种方法的量子度方面进行比较。值得注意的是,在比较的五种同行方法中,有四种方法包含经典层(前三列),唯一没有经典层的论文需要断层扫描(第四列),这是现有量子物理技术的一个极其困难的问题[13,16]。相比之下,我们的模型在所有六个方面都实现了纯量子计算,这是对图形学习的原生量子范式的一项倡议。更多细节见第5节。

我们方法的主要思想是首先在节点属性图上执行量子随机行走然后,将处于量子状态的采样序列馈送到量子递归网络中用于节点嵌入,从而通过直接使用量子态序列来避免量子态的测量。注意,在我们的量子模型中,旋转门的参数实际上是基于下游任务(例如节点分类的损失)通过梯度下降训练的模型参数。我们将我们的贡献总结如下。

1) 对于一般的属性节点嵌入问题,我们提出了一种称为量子图递归嵌入(QGRE)的量子学习范式,该范式与量子算子完全兼容,因为不涉及基于经典计算的模块。尽管我们的管道仍然局限于基于损失梯度下降的模型训练,但它在技术上与大多数采用量子经典混合系统的同行工作形成了鲜明对比,其中经常涉及经典计算模型,如表1所示。

2) 我们首先在具有属性节点的图上执行属性感知的量子随机行走,而不测量节点序列的量子状态,这是量子计算友好的,与在无属性网络上进行量子随机行走的丰富工作相比,在文献中尚未实现。这使我们能够从多跳中探索节点信息。

3) 我们提出了双向量子长短期记忆(见图6)来学习节点表示。双向QLSTM将来自属性量子随机游动的量子态作为输入。不需要模型间测量。

4) 我们在广泛的节点分类公共基准数据集上实证证明了我们的方法的有效性,其中可以对网络结构和节点属性信息进行建模。与GraphRNA[24]相比,我们的模型实现了具有竞争力的性能和显著的效率优势。

Reliable Representations Make A Stronger Defender: Unsupervised Structure Refinement for Robust GNN(可靠表示使防御者更强:鲁棒GNN的无监督结构优化)

image-20230403201239872

ABSTRACT

得益于消息传递机制,图神经网络(GNN)在处理图数据的繁荣任务方面取得了成功。然而,最近的研究表明,攻击者可以通过恶意修改图结构来灾难性地降低GNN的性能。解决这一问题的一个简单解决方案是通过学习两个末端节点的成对表示之间的度量函数来对边缘权重进行建模,该度量函数试图为对抗性边缘分配低权重。现有的方法使用原始特征或通过监督GNN学习的表示来对边缘权重进行建模。然而,这两种策略都面临着一些紧迫的问题:原始特征不能表示节点的各种财产(例如结构信息),并且受监督GNN学习的表示可能会受到分类器在中毒图上表现不佳的影响。我们需要携带特征信息和尽可能正确的结构信息的表示,并且对结构扰动不敏感。为此,我们提出了一个名为STABLE的无监督流水线来优化图结构。最后,我们将经过良好细化的图输入到下游分类器中。对于这一部分,我们设计了一种先进的GCN,它在不增加时间复杂性的情况下显著增强了普通GCN[24]的鲁棒性。在四个真实世界的图形基准上进行的大量实验表明,STABLE的性能优于最先进的方法,并成功抵御了各种攻击。

INTRODUCTION

图是普遍存在的数据结构,可以表示各种对象及其复杂关系[2,29,46,48,50]。作为从图中学习表示的强大工具,图神经网络(GNN)近年来在许多基于图的任务中进行了广泛的探索[14,24,27,35,42],主要集中在节点表示学习[23,33,36,43]和转导节点分类[14,18,24,35]。GNN成功的关键是神经消息传递机制,在该机制中,GNN将特征和隐藏表示视为节点携带的消息,并通过边缘传播。然而,这种机制也带来了安全风险

最近的研究表明,GNN容易受到对抗性攻击[7,40,51,54,55]。换言之,通过有限地重新布线图结构或只干扰一小部分节点特征,攻击者可以很容易地欺骗GNN对图中的节点进行错误分类。该模型的稳健性对于一些安全关键领域至关重要。例如,在欺诈交易检测中,欺诈者可以通过故意交易来隐藏自己与普通用户。因此,有必要研究GNN的鲁棒性。尽管攻击者可以通过扰动节点特征或图结构来修改干净图,但大多数现有的对图数据的对抗性攻击都集中在修改图结构[10,55]。此外,结构扰动被认为更有效[40,54],这可能是由于消息传递机制。错误的消息将通过新添加的边缘,或者由于删除了原始边缘而无法传播正确的消息。在本文中,我们的目的是抵御对图数据的非目标对抗性攻击,这种攻击试图降低GNN的整体性能。在这种设置下,GNN应该在结构已经受到扰动的图上进行训练

防御攻击的一个代表性观点是通过重新加权边来细化图结构[52]。具体而言,边缘权重是通过学习成对表示之间的度量函数得出的[9,25,35,37,45]。直观地,边的权重可以表示为两个末端节点之间的距离度量,防御者可以根据这些距离进一步修剪或添加边。

尽管已经提出了大量的方法来对成对权重进行建模,但大多数研究都致力于设计一种新的度量函数,而对该函数输入的合理性的讨论却不够充分。更详细地说,它们通常利用监督GNN学习的原始特征或表示来计算权重。

然而,基于特征或监督信号来优化图结构可能并不可靠。例如,GNNGuard[45]和Jaccard[40]利用初始特征的余弦相似性来对边缘权重进行建模,而GRCN[44]使用学习表示的内积。这三个模型在MetaAttack[55]1攻击的Cora上的性能如表1所示。从表中,我们首先观察到基于特征的方法在低扰动率下表现不佳,因为特征不能携带结构信息。基于这样一个不充分的属性优化结构可能会导致错误地删除正常边(删除的边的统计数据列于表3中)。当扰动较低时,这种错误删除的负面影响大于删除恶意边缘的正面影响。因此,我们希望通过包含结构信息的学习表示来细化结构。其次,我们还看到被监督的GNN所学习的表示是不可靠的在高扰动下(GRCN的结果)。这可能是因为攻击方法被设计成降低代理GNN的准确性,因此分类器学习的表示质量随着任务性能的变化而变化。

基于上述分析,我们认为用于结构细化的表示应该以不同的方式获得,在对抗性场景中学习表征两个因素应该被强调
1)携带特征信息,同时携带尽可能多的正确结构信息;2)对结构扰动不敏感

为此,我们在本文中提出了一种名为STABLE的方法(通过更可靠的R表示的结构leArning GNN),它通过无监督学习来学习用于结构精化的表示。无监督方法相对可靠,因为目标不会受到直接攻击。此外,无监督管道可被视为一种预训练,学习的表示可能已被训练为对某些有用的财产保持不变[39](即这里的扰动结构)。我们设计了一种与新的预处理和恢复模式的对比方法来获得表示。与之前的对比方法[15,32,36,53]不同,我们粗略地细化了图,以去除容易检测到的对抗性边缘,并通过随机恢复一小部分去除的边缘来生成增强视图。预处理使得在表示学习过程中获得的底层结构信息相对正确,并且这种增强策略可以被视为对预处理的图注入轻微的攻击

然后,在对比训练过程中,在不同的增强视图上学习到的表示往往是相似的。也就是说,我们获得了对各种轻微攻击不敏感的表示

这样的学习表示满足了我们的要求,并且可以用来执行图结构精化以导出未受污染的图。此外,在结构被很好地细化之后,任何GNN都可以用于下游学习任务。对于这一部分,许多方法[20,22]只使用香草GCN[24]。通过观察是什么使边缘插入或删除成为一种强烈的对抗性变化,我们发现GCN成为其重整化技巧的受害者。因此,我们在GCN模块中引入了一种先进的消息传递,以进一步提高鲁棒性

我们的贡献可以总结如下:

  1. 我们提出了一种具有面向鲁棒性的增强的对比方法来获得用于结构精化的表示,该方法可以有效地捕获节点的结构信息,并且对扰动不敏感
  2. 我们进一步探讨了GCN缺乏鲁棒性的原因,并提出了一种更鲁棒的归一化技巧
  3. 在四个真实世界数据集上进行的大量实验表明,STABLE可以抵御不同类型的对抗性攻击,并且优于最先进的防御模型。

Recommendation in Offline Stores: A Gamification Approach for Learning the Spatiotemporal Representation of Indoor Shopping(线下商店的推荐:一种学习室内购物时空表示的游戏化方法)

image-20230403200126549

ABSTRACT

随着目前用于在线下商店收集实时数据的移动和传感技术的进步,零售商和批发商试图开发推荐系统,以增强销售和客户体验。然而,现有的推荐系统研究主要集中在电子商务平台和其他在线服务上。他们没有考虑真实商店中室内购物的独特特征,如物理环境和物体,这些特征会显著影响顾客的移动和购买行为,从而代表了对识别可推荐商品至关重要的“时空背景”。

在这项研究中,我们提出了一种游戏化方法,其中在像素世界中模拟真实的商店,并训练递归卷积网络来学习离线购物的时空表示。通过在大卖场的实际应用,证明了我们的方法相对于现有的顺序推荐系统的优越性和优势。我们相信,我们的工作可以为促进在线下商店和服务中提供推荐的实践做出重大贡献。

INTRODUCTION

推荐系统是数据科学中最受欢迎和最成功的应用之一。通过学习购买记录,推荐系统可以支持客户根据他们的各种需求和隐含偏好搜索不同的物品[14,41]。

许多研究应用传统和现代数据科学技术开发了真实世界的推荐系统,可以了解客户对电影、书籍和电子商务服务中列出的其他物品的需求和偏好[34,39]。由于与客户实时互动的在线环境的灵活性,在线服务可以立即识别客户的需求,并及时提供个性化建议[15]。事实证明,这些先进的系统显著改善了客户体验和在线服务的参与度,从而增加了利润[26,41]。然而,这在“线下”的实体店(即零售店和批发店)中是罕见的。尽管一些相关研究已经调查了传统协同过滤技术的简单应用,以确定零售客户的推荐[27,31],但据我们所知,没有研究表明在现实世界的线下商店中成功地使用先进的数据科学来交互式地确定客户的推荐项目

与电子商务网站和移动应用程序的简化“在线环境”不同,线下商店的推荐系统必须考虑“线下环境”,在这种环境中,顾客需要进行受线下购物动态限制的身体运动。1因此,真实商店的室内购物涉及以下三个独特的特征,这对数据的收集和学习构成了挑战

  1. 首先,线下商店中焦点客户的踪迹形成了独特的商品购买顺序和路线。尽管两个客户可能购买相同序列的商品,但他们通常使用不同的路线。
  2. 其次,顾客与商店环境进行动态交互实时。例如,他们经过商店环境中的陈列架,同时避开或创造拥挤的区域。
  3. 第三,线下商店需要根据时间、商品可用性以及销售和运营的其他因素进行运营控制(例如,对拥堵和商品价格的控制)。这种运营控制影响了顾客的行为,线下商店有特定的意图来控制室内顾客。

因此,线下商店推荐系统必须能够适应以下情况:

  1. 物理环境中顾客和对象的时空模式
  2. 受线下购物动态约束的顾客的实时顺序互动
  3. 从零售商或批发商的角度对销售进行操作控制。

然而,现有的推荐系统研究并没有充分考虑到这些独特的离线购物环境。

传感技术的进步使离线商店的客户和物理环境数据得以收集。

这包括使用智能设备,如室内传感系统[4]和智能购物车[28,29],与商店中的顾客互动,以增强他们的购物体验。因此,安装在智能设备上的交互式推荐系统有望改善客户的购物体验,并提高线下商店的销售额[29]。然而,交互式推荐系统商店的开发仍然具有挑战性,因为这种智能设备仅在少数商店可用

因此,考虑到上述从(1)到(3)的上下文,开发一种无设备但可以学习真实商店中室内购物的时空表示的交互式推荐系统是一个挑战。为此,我们提出了一种游戏化方法,在该方法中,在虚拟环境中训练推荐系统,以学习线下购物的时空表示。我们的游戏化方法如下

  1. 首先,它将线下商店转换为虚拟环境(类似于雅达利的点图风格复古游戏环境)通过创建模拟商店平面图的2D像素图像。这个虚拟环境被表示为像素世界

  2. 其次,引入了一种虚拟客户——模拟实际商店购物过程的用户模型。它由两个函数组成:导航和决策。导航函数采用A*-算法 [13] 实现,决策函数采用多层感知器(MLP)实现。

  3. 第三,基于递归卷积神经网络(RCN)[2,8]实现了推荐模型,该网络代表了顾客购物的时空性质。使用2D像素图像来表示空间信息,并且通过重叠这些图像来构建时间信息。每个图像被输入到卷积神经网络(CNN)[19]中,并被编码为潜在上下文。

    门控递归单元(GRU)[6]然后将潜在上下文顺序解码为可推荐项目。

  4. 第四,对用户和推荐模型之间的交互进行建模,以识别客户偏好和线下购物的动态。交互式训练的推导类似于增强算法的形式[36];因此,推荐模型可以控制客户在销售操作方面的购物行为,并可以实现和测试任何操作场景。

这是一项原创研究,旨在开发一个充分考虑室内购物时空性质的交互式推荐系统(见图1)。其主要的学术和技术贡献是将现代机器学习技术与零售和批发行业的新兴系统和可收集数据联系起来(见第2节)。具体而言,我们将离线商店的时空感知推荐系统的开发定义为交互式RCN学习的问题,并通过一种新的基于游戏化的方法成功地解决了这一问题(见第3节和第4节)。通过与现有方法的比较实验验证了所提出的方法(见第5节和第6节)。

Partial Label Learning with Semantic Label Representations(基于语义标签表示的部分标签学习)

image-20230403193857986

ABSTRACT

部分标签学习(PLL)解决了为每个训练实例分配一个候选标签集的问题,其中只有一个是基本事实标签。PLL的核心是学习有效的特征表示,以便于标签消歧。然而,现有的PLL方法只能通过粗略的监督来学习简单的表示,这无法捕获足够可区分的表示,尤其是当面临棘手的标签歧义时,即某些候选标签共享相似的视觉模式。在本文中,我们提出了一个新的框架,称为ParSE的带有语义标签表示的部分标签学习,它由两个协同过程组成,包括视觉语义表示学习和强大的标签消歧。在前一个过程中,我们提出了一种新的加权校准秩损失,它有两个含义。首先,它暗示了一种渐进校准策略,该策略利用消歧标签置信度来加权每个图像特征嵌入与其对应的所有候选的语义标签表示之间的相似性。其次,它还考虑了候选人和非候选人之间的排名关系。基于学习的视觉语义表示,后续的标签消歧有望被赋予更强大的能力。在基准测试上的实验表明,ParSE的性能优于最先进的同类产品。

INTRODUCTION

现代深度学习技术的成功取决于大量正确标记的数据。然而,由于数据注释的困难,现实世界场景中的此类数据相当稀缺[1,14,42]。获取此类所需数据的一个主要障碍是标签模糊性,这意味着有时很难区分某些类别,因为它们共享相似的视觉模式。因此,非专业的人类注释者可能很难明确选择一个基本事实领域标签作为“黄金”,因为他们可能会在类似领域类别的一些选择之间左右为难。例如,如图1所示,对于一个没有宠物猫领域知识的非专家人类注释者来说,从三个类别(即碎布玩偶、龙猫和加菲猫)中选择一个是非常困难的,这三个类别都属于猫。这个问题引起了研究人员对部分标签学习(PLL)[3,20]的关注,该学习允许每个训练示例配备一个候选标签集,其中只有一个是基本事实标签。与只选择一个标签作为基本事实标签的监督学习相比PLL对非专家人工注释器非常友好,并且注释成本相对较低。因此,PLL在许多现实世界的应用中更为实用和常见,如生物信息学[15]、网络挖掘[16]和自动图像注释[2,11,37]

image-20230403194637410

图1:一个示例图像,带有候选标签集合Y={布偶猫,栗色土拨鼠,加菲猫}和非候选标签集合sY={鲨鱼,骆驼}。真实标签是布偶猫

在过去的十年里,已经提出了许多传统的PLL方法,以基于手工制作的特征(即实例)和相应的候选标签来诱导多类分类器。

它们通常基于两阶段框架。特别地,它包含了两个步骤。第一种是一次性和全局标签消歧,基于特征空间中的某些数据分布假设(例如平滑度和聚类假设[38,39]),从候选标签中同时识别所有实例的基本事实标签。其次,可以通过使用消歧标签直接训练分类器。该框架的致命弱点是,它们严重依赖预先获得的手工制作的特征表示来进行标签消歧,而不是端到端使用深度学习技术(如随机优化算法和深度神经网络)进行训练,因此其对大规模数据集的可扩展性受到极大限制

为了缓解这个问题,研究人员最近引起了人们对深度PLL方法的关注,该方法旨在用部分标记的数据训练端到端的深度神经网络。与传统PLL相比,深度PLL需要从头开始学习特征表示以及标签消歧。因此,深度PLL方法通常基于端到端协同框架,该框架使用随机优化算法在小批量中迭代执行标签消歧和表示学习[6,17,31]。然而,他们只能通过粗略的监督来学习简单的视觉表示,这无法捕捉有效和可区分的表示来进行标签消歧,尤其是当面临棘手的标签歧义时,即某些候选标签共享相似的视觉模式。例如,如图1所示,布娃娃的图像与候选标签集(即布娃娃、龙猫、加菲猫)相关联。这些候选标签是cat的一个子类,因此共享相似的视觉模式。在这种情况下,仅使用消歧标签的天真表示学习不足以学习用于区分这些候选标签的高质量表示。此外,它可能会导致学习的两个过程之间的恶性循环不可区分的表征阻碍了有效的标签消歧。棘手的标签歧义反过来阻碍了高效的表征学习。因此,学习足够高质量的表征以促进这种协同框架中的良性循环至关重要。

为了实现这一目标,在本文中,我们提出了一种新的框架——利用语义标签表示的部分标签学习,称为ParSE,该框架利用语义标签表达来学习高效的视觉语义特征表示,以促进标签消歧。特别地,ParSE由两个协同过程组成,包括视觉语义表示学习和强大的标签消歧。在前一个过程中,在许多其他具有已知基本事实标签的任务中学习视觉语义表示可能非常简单。然而,由于PLL中固有的标签模糊性(即,基本事实标签隐藏在候选标签集中),我们无法直接学习这种视觉语义表示。为了缓解这个问题,我们提出了一种新的加权校准秩损失,它有两个含义。

首先,它暗示了一种渐进校准策略,该策略利用消歧标签置信度来加权每个图像特征嵌入与其对应的所有候选标签的语义标签表示之间的相似性。通过这种方式,在不断更新的权重的指导下,所有候选标签的相似性逐渐向右校准目标(即与基本事实的相似性)。其次,它还考虑了候选和非候选之间的排序关系,以实现一致的相似性排序。

基于学习的视觉语义表示,后续的标签消歧有望被赋予更强大的能力。

我们的主要贡献总结如下:

  1. 据我们所知,我们率先探索将语义标签表示用于PLL,并提供了一个名为ParSE的新框架,该框架可以执行视觉语义表示学习和强大的标签消歧。
  2. 我们提出了一种新的加权校准秩损失,用于学习PLL中的视觉语义表示,这意味着渐进校准策略以及候选标签和非候选标签之间的相似性排序。
  3. 从经验上看,ParSE在基准测试方面优于最先进的同行。大量实验表明了我们提出的框架ParSE的有效性。

Packet Representation Learning for Traffic Classification(用于流量分类的分组表示学习)

image-20230403190659632

ABSTRACT

随着信息技术的飞速发展,为了提供高质量的网络服务,对网络分析的需求和挑战越来越大。由于互联网上的所有数据都是通过网络数据包封装和传输的,数据包被广泛用于各种网络流量分析任务,从应用程序识别到入侵检测。考虑到特征的选择以及如何表示特征会极大地影响下游任务的性能学习高质量的数据包表示至关重要。此外,现有的分组级工作忽略了分组表示,而是专注于通过对不同分类任务的独立分析来获得良好的性能。在现实世界中,尽管一个数据包可能对不同的任务具有不同的类标签,但从一个任务中学习的数据包表示也有助于理解其在其他任务中的复杂数据包模式,而现有的工作则忽略了利用它们。

利用这一潜力,在这项工作中,我们提出了一个新的框架来解决各种流量分类任务的分组表示学习问题。我们学习数据包表示,同时保留每个数据包的语义和字节模式,并利用样本选择器的对比损失来优化学习的表示,以便相似的数据包在潜在的语义空间中更接近。此外,通过具有重构表示和类概率损失的多个任务的类标签来进一步联合优化表示。评估表明,在封闭世界和开放世界的情况下,我们提出的框架的学习分组表示在广泛流行的下游分类任务上可以大大优于最先进的基线方法。

INTRODUCTION

随着信息技术的飞速发展,即使在互联网公司的局域网中(例如,在数据中心、办公室内联网等),也可以有各种计算机、物联网设备、路由器,甚至他们自己的域名系统。为了提供高质量的网络服务,对流量分析的需求和挑战越来越大。流量分类,用适当的类别标签表征网络流量,对许多分析需求很重要,如服务质量(QoS)控制、安全控制、定价、资源使用规划和访问控制[19]。由于互联网上的所有数据都是通过网络数据包封装和传输的,因此数据包是为这些下游任务提供丰富信息的基本要素。学习数据包表示以捕获从不同分类任务的数据集中收集的潜在信息很重要,这也将有助于进一步研究网络流量,如零日攻击检测[15]。

现有的工作独立地学习不同流量数据格式(例如,明文、加密、压缩)和不同分类任务(例如,入侵检测、应用程序分类)的表示。我们大致将它们分为基于特征的和基于字节的对于基于特征的模型,Ashfaq等人[2]构造了具有头部特征的数据包表示,并利用未标记的样本来提高入侵检测的性能。Hypolite等人[8]利用具有报头和有效载荷信息的深度分组检测(DPI)来匹配每个类别的特定正则表达式。然而,这些工作仅适用于明文流量,并且需要额外的成本和劳动力来进行功能工程。为了解决这些问题,最近基于字节的方法引起了人们的极大关注。Lotfollahi等人[14]和Wang等人[25]进行了初步试验,以学习每个字节的十六进制数的数据包表示,并利用CNN进行应用分类。Casino等人[4]利用每个数据包的十六进制字节,并进一步区分加密流量和压缩流量。由于在现实世界中总是存在新的分组模式(即开放世界问题),Zhang等人[28]在用于应用分类的十六进制字节表示学习之后增加了过滤未知分组的步骤。

尽管在流量分类方面取得了显著进展,但我们认为,尽管从不同任务的角度来看,每个数据包都有不同的特征(例如,类标签),但从一个任务中学习的数据包表示可以帮助理解其在其他任务中的复杂数据包模式,而现有的工作忽略了利用它们。例如,如图1所示,“FTP”通过“VPN”连接进行的“文件传输”流量的“良性”数据包具有四个标签,分别用于“入侵检测”、“应用程序分类”、“服务识别”和“VPN检测”的分类任务。这些不同分类任务的标签将有助于学习复杂的分组模式,甚至有助于找到新的分组模式。这不仅有利于现有任务,也有利于对流量的进一步研究。因此,在这项工作中,我们建议研究为不同的流量分类任务学习数据包表示的新问题

image-20230403191446275

图1:一个数据包示例,其中原始有效载荷数据在相应的协议层上用TCP和IP报头打包。它包含未加密和加密的数据,并具有用于不同分类任务的类标签,如“良性”、“FTP”、“文件传输”和“VPN”。

问题总结

  1. 从学习分组表示的角度来看,很难对不同类型的分组进行一般编码。如图1所示,分组数据从下到上封装在每个协议层[12]。对于不同的协议,数据包可以是不同的报头结构、数据包长度和数据格式。
  2. 从不同业务分类任务的角度来看,很难利用统一的分组表示来适应不同的类别和任务。即使对于同一个数据包,不同的类和不同的任务也会关注其表示的不同部分。例如,对于协议识别,报头信息将做出更多贡献;而对于攻击检测,报头信息对于陆地攻击可能更重要,而有效载荷信息对于XSS攻击可能更为重要。

为了解决上述挑战,在这项工作中,我们提出了PacRep,这是一种学习流量分类的分组表示的新框架。PacRep由两个模块组成,即分组编码模块联合调优模块。在数据包编码模块中,我们将每个数据包视为具有标记的文本,并从所选正样本和负样本的对比丢失中学习规则化的有效编码器。在联合调整模块中,我们通过自适应隐藏表示和每个类别的预测概率来优化模型。此外,由于数据包可以对于每个任务只分类为一类,为了保持不同下游分类任务之间的有效性,我们还联合正则化了多个任务的预测概率,这也将依次进一步优化编码器。总之,我们的主要贡献有三方面:

  • 问题:据我们所知,我们是第一个研究具有加密和未加密信息的不同流量分类任务的通用分组表示学习的新问题的人。
  • 算法:我们提出了一种新的PacRep框架,该框架学习通过正样本和负样本的对比损失优化的有效数据包表示,并通过多个类和任务的标签进一步调整。
  • 评估:我们进行了广泛的实验,以证明我们的PacRep在六个下游任务上的有效性,表明PacRep的性能在所有这些分类任务上都大大优于最先进的基线。

Learning Sparse Latent Graph Representations for Anomaly Detection in Multivariate Time Series(用于多变量时间序列异常检测的学习稀疏潜在图表示)

image-20230403183922706

ABSTRACT

​ 高维时间序列中的异常检测通常使用基于重建或预测的算法来解决,因为它们能够分别学习压缩数据表示建模时间相关性。

​ 然而,大多数现有的方法都忽略了特征之间的关系,这些信息在合并到模型中时会非常有用。在这项工作中,我们引入了融合稀疏自动编码器和图网(FuSAGNet),它们联合优化重建和预测,同时显式地建模多变量时间序列中的关系。我们的方法结合了稀疏自动编码器和图神经网络,后者根据前者学习的稀疏潜在表示以及通过递归特征嵌入学习的图结构来预测未来的时间序列行为。

在三个真实世界的网络物理系统数据集上进行实验,我们实证证明,所提出的方法提高了整体异常检测性能,优于基线方法。此外,我们还表明,从高维时间序列中挖掘稀疏的潜在模式可以提高基于图的预测模型的鲁棒性。最后,我们进行了视觉分析,以研究递归特征嵌入和稀疏潜在表示的可解释性

INTRODUCTION

作为工业4.0的一项重要技术,网络物理系统(CPSs)集成了物理和软件组件,以控制和监控机制,如机器人、汽车或工业控制系统(ICSs)和其他关键基础设施。在这样的系统中,在不同的过程中组织的工业传感器(和致动器)持续频繁地相互作用,产生大量的时间序列,其特征是高复杂性和维度。这两处财产都使复杂工业系统的人工操作和监控变得复杂,因此需要自动化安全措施来确保CPS的可靠性。与这个问题相关的挑战引发了大量的研究问题,其中之一是开发深度学习算法,以正确识别异常,并有望预防潜在风险。

总结1:

  1. CPSs很重要
  2. 需要自动化安全措施来确保CPS的可靠性
  3. 目前是深度学习算法

然而,CPSs通常在性质上已经是可靠的,导致自然缺乏异常情况,因此,在产生的时间序列中只有少数标记的异常。然而,CPSs中的异常检测仍然是一项重要任务,因为即使很少发生的异常事件也会引发灾难性故障,通常会导致整个系统的级联故障,这是由于过程内部和过程之间传感器的高度互连性。除了网络安全事件等造成的无法弥补的损害外,系统中可管理的故障或异常情况也可能同样麻烦,因为它们需要人工专家进行检查,不可避免地会出现停机。此外,异常现象可能会以各种可能的新形式出人意料地出现。

为了解决高维传感器数据中异常的罕见性及其模式的可变性,以前的工作主要依赖于无监督学习来制定基于一类方法的新颖性检测问题[26],该方法已被证明优于统计、基于规则的方法[8]。

将无监督学习范式应用于解决此类问题的一种突出方法包括深度学习算法,由于其能够有效地从大量数据中的非线性模式中学习,深度学习算法在过去几年中取得了巨大成功。最广泛使用的技术是基于卷积神经网络(CNNs)[23]和递归神经网络(RNNs)[27]进行基于预测的异常检测,以及基于重建的异常检测的生成模型,如变分自动编码器(V AE)[3]和生成对抗性网络(GANs)[13];香草和其他变体的自动编码器也通常用于异常检测,使用重建误差作为异常分数[1]。预测和基于重建的模型具有明显的优势,如前者能够对时间依赖性进行建模,而后者能够学习有意义的数据表示,这些数据表示值得同时使用,而不是独立使用[38]。

尽管如此,大多数现有的算法要么依赖于预测,要么依赖于重建来进行异常检测。此外,他们无法学习特征之间复杂的相互依赖关系[10],这些信息在纳入模型时可能非常有用。

总结2:

  1. 异常事件即数据很少,训练不动
  2. 采用无监督学习
  3. 分为两种 基于预测和基于重建的
  4. 无法学习特征之间复杂的相互依赖关系

在这方面,图神经网络(GNN)[39]最近在试图对非欧几里得空间中的特征(即节点或顶点)之间的关系(即边)进行建模的研究人员中获得了关注。虽然存在多种形式的图形模型,但几何深度学习[7]中GNN的本质是消息传递(也称为扩散、传播或不同伪装下的邻域聚合)函数[6]。

图的一个关键特征是,GNN中的排列不变性是通过可微函数(如求和、平均或最大化)聚合相邻节点之间的信息来保持的[6]。然而,消息传递方案虽然在图表示学习中有效,但由于CPS[32,33]中操作条件的固有演化和高度可变性质,使GNN容易受到噪声的影响。此外,将GNN直接应用于高维时间序列是困难的,因为在大多数情况下,图结构最初是未知的[10]。

总结3:

  1. GNN用于关系建模很出色,本质是消息传递函数(聚合相邻节点之间的信息),在图表示学习中有效
  2. CPS[32,33]中操作条件的固有演化和高度可变性,使GNN容易受到噪声的影响
  3. GNN直接应用于高维时间序列是困难的

为了应对上述挑战,我们提出了以下研究问题(RQ)

  • RQ1(检测性能)。在代表异常事件的数据极其稀缺的现实场景下,我们能否准确检测高维传感器数据中的异常?2-1
  • RQ2(消融)。我们提出的模型的每个核心组件是否对最终的异常检测性能有积极影响?2-4
  • RQ3(可解释性)。我们的模型学习到的图结构和稀疏的潜在特征是否恰当地表征了高度可变的传感器数据?3-2

在这项工作中,我们介绍了一种时间序列异常检测框架,该框架可以捕获复杂的传感器间关系,并通过分别联合优化稀疏自动编码器(SAE)[22]和GNN的重建和预测,在真实世界的CPS数据集上实现稳健的检测性能。我们提出的模型,融合稀疏自动编码器和图网(FuSAGNet),结合了SAE和GNN,使得后者根据前者学习的输入数据的稀疏潜在表示以及通过递归传感器嵌入学习的图结构来预测未来的传感器行为。为了有效地表征CPS中的组成传感器,我们的嵌入模块被单独应用于与不同过程相关的传感器。通过聚集重建和预测误差仅考虑由联合优化增强的基于图的预测模型生成的后者来计算最终异常分数。我们的贡献总结如下:

  • 我们提出了FuSAGNet,这是一种异常检测框架,它在稀疏性约束下联合优化重建和预测,同时捕获传感器生成的高维时间序列之间的相互依赖性。
  • 我们在三个真实世界的CPS数据集上进行了实验,并通过将其检测性能与基线方法的检测性能进行比较,实证证明了我们模型的有效性。
  • 我们进行视觉分析,以提供分别通过递归传感器嵌入和稀疏约束重建获得的图结构和稀疏潜在表示的可解释性。

4.3分割线


Open-Domain Aspect-Opinion Co-Mining with Double-Layer Span Extraction(基于双层跨度提取的开放域方面意见协同挖掘)

摘要

方面-观点提取任务是从评论中提取方面术语和观点术语。监督提取方法取得了最先进的性能,但需要大规模人工注释的训练数据。因此,由于缺乏训练数据,它们在开放领域任务中受到限制

本文解决了这一挑战,同时在联合模型中挖掘方面术语、观点术语及其对应关系。我们提出了一种具有双层跨度提取框架的开放域方面意见协同挖掘(ODAO)(Open-Domain Aspect-Opinion)方法。

  1. ODAO首先使用基于通用依赖解析的规则生成未标记语料库的弱标签,而不是获得人工注释。
  2. 然后,ODAO利用这种弱监督来训练双层跨度提取框架,以提取方面术语(ATE)、观点术语(OTE)和方面-观点对(AOPE)。ODAO应用典型相关分析作为早期停止指示器,以避免模型过度拟合噪声,从而解决嘈杂的弱监督问题
  3. ODAO使用自训练过程,逐渐丰富训练数据以解决弱监督偏差问题
  4. 我们进行了广泛的实验,展示了所提出的ODAO的强大性能。在四个基准数据集上进行的方面-观点共提取和对提取任务的结果表明,与最先进的完全监督方法相比,ODAO可以实现竞争性甚至更好的性能。

Introduce

​ 了解客户需求对于业务发展至关重要。由于评论数量庞大,许多企业需要进行成本效益的评论分析,以提高他们的服务质量。
​ 评论分析包括多个任务,包括方面术语提取(ATE)、观点术语提取(OTE)、方面-观点对提取(AOPTE)、基于方面的情感分析(ABSA)、指定方面的观点提取(ASOE)等。在评论分析中,方面术语描述产品或服务属性,而观点术语描述评价者对相应产品或产品方面的观点。
​ 考虑到评论“酒单很全,非常令人印象深刻。”,其中方面术语是“酒单”,相应的观点术语是“全”和“印象深刻”,方面-观点对是(“酒单”,“全”)和(“酒单”,“印象深刻”)。我们的工作旨在同时挖掘方面术语、观点术语及其对应关系

总结:1. 需求背景很大2.概念定义

​ 早期的工作专注于ATE、OTE和AOPTE任务[11,23,24],这些方法是基于规则的,利用语料库级别的统计信息和依赖解析树等特征。首先挖掘频繁模式,然后使用这些模式来形成规则。这些规则可以适用于各种评论领域。然而,由于语言表达的变化,高质量的规则可能稀少且覆盖面较低,并且一些低质量的规则可能会在结果中引入噪声。这些规则还面临着复杂的方面-观点表达的挑战(例如,一个方面可能对应于多个观点术语)。(早期工作

​ 现有关于ATE [14, 18, 31–33, 36]、OTE [30, 32, 35, 39]和AOPTE [2, 8, 12]任务的研究通过在人工注释的标签上训练深度神经网络取得了最先进的结果。这些监督方法可以学习方面术语和观点术语之间的复杂关系。然而,这些方法依赖于人工注释的数据集,这可能很昂贵。由于它们对标记数据集的依赖,这些方法在资源匮乏的领域可能表现不佳。(深度学习

​ 为了解决标记数据不足的问题,提出了几种半监督方法。类似于基于规则的方法,半监督方法[4,39]也会挖掘规则。这些方法利用人工注释数据集来挖掘高质量的规则。然后利用这些挖掘到的规则对未标记的语料库进行注释。弱标记和人工注释数据集用于训练深度神经网络。这些方法改进了跨领域任务的性能,但仍需要具有人类注释的相关语料库。(半监督方法

总结:1. 过去的工作怎么做的 2.缺陷是什么

​ 我们的工作旨在开发一个无需人工注释语料库的开放域方面-观点共挖掘任务框架。我们采用了先前基于规则方法的发现,形成适用于广泛领域的一些高质量规则。然后将这些修改后的规则应用于注释评论语料库。与人工注释标签相比,规则提供的弱标签是有偏差且嘈杂的。(用规则处理)

​ 为了处理这些问题,我们提出了一种新的双层跨度抽取模型ODAO。

​ 提出的ODAO模型同时执行三个任务,即ATE、OTE和AOPTE。我们进一步将AOPTE任务分解为两个子任务:指定方面的观点抽取(ASOE)和指定观点的方面抽取(OSAE)。这四个任务,ATE、OTE、ASOE和OSAE密切相关,可以相互增强。其中,ATE和OSAE任务的目标类似于提取方面术语,而OTE和ASOE任务的目标类似于提取观点术语。此外,ASOE和OSAE可以视为ATE和OTE的后续任务。为了在一个框架内共同建模这四个任务,我们提出了一个双层体系结构为每个任务提供基于BERT的跨度提取器。(问题定义

​ 我们进一步利用任务之间的相关性来解决弱标签训练数据中的偏差和噪声问题。先前的工作注意到,早期停止可以防止模型过度拟合嘈杂的注释标签。然而,在没有基础真值标签的情况下,何时停止仍然是一个挑战。我们使用以下观察结果来解决这个难题。
​ 直观地说,具有相同目标的任务应该对相同审核的解释达成一致。例如,由OSAE模块提取的方面术语也应由ATE模块提取。因此,耦合任务之间的相关性可以指示学习状态。当耦合模块的隐藏表示最大相关时,意味着耦合任务已经经过适当训练。因此,在评论的隐藏表示上采用规范化相关分析(CCA)来衡量这种相关性,并在训练期间使用CCA作为提前停止标准,以避免模型过度拟合嘈杂和有偏差的标签。此外,如果未标记的评论收到了四个子任务的预测结果,则该评论很可能被正确预测。因此,ODAO采用自我训练思想,将这些高度可信的评论及其预测标签添加到训练池中以丰富训练数据,然后重新训练模型。(训练到什么时候停止)

​ 我们在不同领域的各种基准数据集上进行了广泛的实验,评估由ATE模块提取的方面术语、由OTE模块提取的观点术语以及由ASOE和OSAE模块组合提取的方面-观点对。实验结果表明,ODAO优于先前的半监督方法,并针对ATE、OTE和AOPTE三个任务的性能达到了最先进的全监督方法的竞争水平,即使ODAO仅使用少量规则来获得弱标签训练数据。实验结果证明了提出的ODAO在实际应用中的有效性。

​ 问题总结:

  1. 早期工作:由于语言表达的变化,高质量的规则可能稀少且覆盖面较低,并且一些低质量的规则可能会在结果中引入噪声

  2. 深度学习:依赖于人工注释的数据集

  3. 半监督方法

  4. 用规则处理

    各自有各自的问题

​ 总之,本论文的主要贡献如下:

  1. 我们提出ODAO模型,在弱监督条件下同时提取评论中的方面术语、观点术语和方面-观点对。据我们所知,这是第一篇针对开放领域评论分析执行这些任务的工作。
  2. 我们设计了一个双层跨度提取框架,以不同方面共同建模任务。具体而言,ODAO共同建模了ATE、OTE、ASOE和OSAE任务,并充分考虑它们之间的相关性
  3. 所提出的ODAO对由规则提供的有偏差和嘈杂的训练数据保持弹性。具体而言,通过使用CCA作为提前停止标准来防止模型对嘈杂的标签过度拟合,而自我训练过程则丰富了训练数据以解决训练偏差问题。
  4. 在各种领域的基准数据集上进行的广泛实验验证了所提出的ODAO的有效性

Multi-Variate Time Series Forecasting on Variable Subsets(多变量时间序列预测的变量子集问题)

摘要

​ 我们在多变量时间序列预测(MTSF)领域中制定了一个新的推理任务,称为变量子集预测(VSF)。
​ 在推理期间,只有一小部分变量可用。
​ 由于长期数据丢失(例如传感器故障)或训练/测试之间存在高→低资源领域转移,因此变量在推理期间缺失。据我们所知,在遇到这种失败时,MTSF模型的鲁棒性尚未被研究过

​ 通过广泛的评估,我们首先展示了最先进方法在VSF场景下表现显著下降
​ 我们提出了一种非参数包装技术,可以应用到任何现有的预测模型上。通过在4个数据集和5个预测模型上进行系统实验,我们展示了即使只有原始变量的15%存在,我们的技术也能恢复模型接近95%的性能

Introduce

​ 多变量时间序列预测(MTSF)由于其在许多现实场景中的适用性,如交通预测、空气质量预测、电力负载预测和医学监测等,仍然受到研究界的广泛关注[10]。我们注意到两种实际情况,其中MTSF模型需要对数据稀缺性具有鲁棒性。具体而言,我们提出了在推理时模型无法访问所有用于训练的变量的MTSF情景

  1. 长期变量数据不可用性:在大多数多变量时间序列应用中,时间序列数据最常见的来源是传感器。多变量时间序列中的每个变量都是传感器的输出。由于零件故障、电池耗尽等原因,传感器故障在现实部署中很常见,因为它们暴露在不良天气条件、灰尘等环境中。如[30]所述,传感器故障可能会持续很长一段时间(在许多情况下超过多个月),直到传感器被更换。这导致由此前故障的传感器产生的变量长期不可用。

  2. 高→低资源领域转移:时间序列模型通常用于资源可用性变化很大的域。例如,考虑产品库存预测。由于不同产品之间存在市场需求的相关性(例如,手机和它们的保护壳[14]),因此这被提出为MTSF问题。

    例子:

    • 在大型零售商数据集上训练的模型将拥有各种各样的产品(变量)。但是,当将同一模型应用于中小型企业(SMB)零售商时,所备货物的数量将显著受到限制,并且可能随时间而变化。因此,不可能在一组固定的产品子集上训练模型,因为不同的SMBs存货不同。
    • 另一个例子是用于预测生理指标(如血糖、胰岛素、肌酐等)的MTSF模型[4]。在大型医院收集的数据训练的模型在训练期间可以访问所有变量。当同一模型被应用于没有许多诊断仪器的农村医院时,在推理过程中会缺少很多变量。在这种情况下,虽然可以事先知道变量的子集,但是创建和维护每个已知子集的模型不具有可扩展性
    • 此外,我们工作中提出的算法(第5节)能够优于或与只在已知子集上训练的模型相匹配。类似的情况也发生在其他领域,例如高端(高资源)和低配(低资源)智能手机之间的电池使用预测以及沿海(高资源)和深海(低资源)海军站之间的风速预报[9]。(介绍问题的定义

​ 多变量时间序列插值技术[18,24]是一个活跃研究领域。插值方法使用全局间变量模式和局部变量信息(平均值、最新值)生成合理的缺失值。插值技术显著依赖于时间局部性,因此在数据缺失很长时间时效果不佳。在高→低资源领域转移情况下,变量完全缺失。在这种情况下,插值方法甚至更不有效。据我们所知,文献中还没有研究MTSF模型在存在这种故障情况下的鲁棒性,这种故障会导致推理过程中的某些变量完全缺失。虽然为了完整性,我们在第9节中也提供了与插值方法的比较。(过去的插值方法不太行)

​ 传统上,MTSF问题旨在通过准确建模变量间和内部变量依赖关系,同时预测N个变量的未来值,给定它们的过去时间序列值。在本文中,训练设置与标准设置相同,我们假设训练算法可以访问所有变量(用N表示)。但是在推理过程中,过去数据仅提供给一个任意小的变量子集(用S表示),我们旨在预测S中变量的未来值。我们将这称为MTSF中的变量子集预测(简称VSF)问题。图1用一个简单的例子总结了问题。(论文题目的解释,问题的定义)

image-20230330092845245

​ 图1:变量子集预测问题:两个子图分别显示(i)训练和(ii)测试实例。每个子图顶部的浅灰色部分表示输入时间步。深色阴影部分是预测结果。在训练期间,V1到V7变量存在,而在测试期间,只有V1、V2、V4和V7存在。

​ VSF问题面临两个主要挑战

  1. 首先,由于推理过程中缺失了数据的大部分(N-S变量),因此恢复与所有N都存在的情况下的损失是具有挑战性的
  2. 其次,在推理过程中仅随机呈现一个小的S,利用N中丰富的变量间关联是不可行的。先前的研究[2、8、16、25]已经通过利用这种变量间的依赖性获得了显著的性能提升。(之前的经验不可用)此外,由于在训练期间不知道S,因此为每个子集S重新训练模型是不可行的。(问题总结)

​ 在本文中,我们还提出了一种新的解决方案,以提高预测模型的性能,并表明即使只有15%的可用变量,它也可以恢复接近最佳情况下95%的性能。
​ 所提出的算法是一个包装器方法,因为它可以在任何现有的预测模型上实现。
​ 我们采用非参数方法来解决该问题,通过仅使用S变量检索最近邻居,并使用这些邻居填补缺失值。然而,这种检索是固有地有偏的,因为邻居是使用部分维度中的距离度量检索的,因此与传统的k-NN设置不同。
​ 我们解决的另一个技术挑战是实现具有偏差检索机制的接近最优性能。我们提出了一种新颖的集成加权方法来对具有偏差的检索结果进行评分。我们的方法简单易行,更重要的是底层预测模型不需要重新训练。

本文的贡献如下

​ (1) 我们制定了一项新的推理任务,称为MTSF中的变量子集预测,这是由现实世界中出现的故障情况所激发的。据我们所知,我们是第一个提出这个问题的。 (第3节)

​ (2) 我们提出了一种新颖的包装器解决方案来提高此设置下各种模型的性能。该算法编码非常简单,不关注预测模型的选择。(第5节)

​ (3) 我们进行了广泛的实验,以理解为什么当前的预测模型在VSF设置中显著表现不佳(第4节)。然后,我们通过彻底的删除操作进行定量和定性研究我们提出的解决方案。

GBPNet_ Universal Geometric Representation Learning on Protein Structures(GBPNet:蛋白质结构的通用几何表示学习)

摘要

蛋白质3D结构的表示学习对于应用,例如计算蛋白质设计或蛋白质工程来说是具有挑战性和必要的。

近年来,几何深度学习在非欧几里得领域取得了巨大成功。

尽管蛋白质可以自然地表示为图形,但主要由于在建模复杂的表示和捕捉3D结构建模中的固有相关性方面存在重大挑战,因此它仍然没有得到充分的探索。

几个挑战包括:

  1. 在学习过程中提取和保存多级旋转和翻译等变信息是一项挑战。
  2. 难以开发适当的工具来有效地利用输入的空间表示来捕捉空间维度上的复杂几何图形。
  3. 难以结合各种几何特征并保留固有的结构关系。

​ 在这项工作中,我们引入了几何瓶颈感知器,并在此基础上建立了一个用于蛋白质结构表示学习的一般SO(3)-等变消息传递神经网络。所提出的几何瓶颈感知器可以集成到不同的网络架构主干中,以处理不同领域的几何数据。

​ 这项研究为三维结构研究中的几何深度学习提供了新的思路。

​ 从经验上讲,我们在三个核心下游任务上证明了我们提出的方法的优势,在这三个任务中,我们的模型实现了显著的改进,并优于现有的基准。有关实施,请访问https://github.com/sarpaykent/GBPNet.

Introduce

​ 蛋白质作为所有生物的基本构建单元,在基础生物过程中起着关键作用,并吸引着来自不同领域的广泛关注 [13]。研究这些大分子的几何结构对于理解生物过程中的蛋白质反应机制和提高药物设计具有关键作用。近年来,深度学习技术的发展,特别是成功应用图神经网络模拟图结构 [35],引起了从蛋白质结构中学习的广泛关注并在过去几年中急剧增长。卷积神经网络和基于图神经网络的方法取得了一些有前途的结果,用于理解蛋白质结构,包括计算蛋白质设计 (CPD) [10, 12]、配体结合亲和力 (LBA) [20, 30] 和蛋白质结构排名 (PSR) [3, 11, 14, 24, 26, 30]。
介绍这方面的重要性,即研究意义

​ 最近的研究展示了图神经网络从蛋白质三维结构中学习的潜在能力。尽管最近取得了进展,仍有几个挑战尚未得到充分探索。

  1. 首先,有效地利用空间输入信息动态捕捉跨空间维度的复杂几何结构仍是一个开放问题。虽然将三维蛋白质结构表示建模为图是很自然的,但直接采用现有的图神经网络来处理蛋白质三维结构可能不足以捕捉在学习过程中无处不在的多层次结构信息因此,它没有调整好捕捉在空间上靠近但在序列位置上较远的氨基酸之间的相互作用。目前,处理三维结构的几何深度学习的事实选择是图神经网络 [7, 12]。消息传递神经网络通过聚合直接邻居的消息和堆叠 GNN 层来学习远程节点的信息。许多先前的研究已经鉴定出一些消息传递范式存在的问题,包括当 GNN 具有多层时过度平滑和当消息传递依赖于长程交互时过度压缩的问题 [1]。如何在不失真地传输信息的情况下有效地在图网络中流动信息对于几何深度学习至关重要。还需要改进 GNN 的传播方法来处理复杂的三维几何数据。

    总结:
    现有的图神经网络来处理蛋白质三维结构不足以捕捉在学习过程的多层次结构信息,急需新的网络来捕捉信息 没有调整好捕捉在空间上靠近但在序列位置上较远的氨基酸之间的相互作用。

    ​ 消息传递范式存在的问题,还需要改进 GNN 的传播方法来处理复杂的三维几何数据。

    1. 其次,难以发现和保留节点/边和图谱之间的不同级别的几何特征。几何表示由相互关联的边和节点特征组成。蛋白质结构的表示学习不仅应依赖于节点,还应依赖于边的特征。此外,对于节点和边的标量和向量特征是相互关联的,因此具有联合学习标量和向量特征能力的模块对于模型捕捉自然蛋白质图的几何表示至关重要。例如,整体蛋白骨架由一组 Cα-CO - NH - Cα 共面单元表示。通过旋转一个共面单元可以生成多个构象,因为共面单元周围的化学键将相应旋转。因此,学习蛋白质结构表示不仅需要网络同时处理几何特征,而且还需要联合保留节点/边和图形级别信息

​ 总结:难以发现和保留节点/边和图谱之间的不同级别的几何特征 需要具有联合学习标量和向量特征能力的模块

  1. 最后,捕捉大型复杂三维蛋白质结构中的非局部关系和抽象特征映射仍然具有挑战性。现有工作 [10, 12] 通常使用基于 GNN 的方法。如图1所示,一个蛋白质包含成千上万个氨基酸。氨基酸序列的折叠和分子内结合形成蛋白质的三维几何结构。空间上远离的氨基酸对可能处于接触状态。因此,问题半径是解决图中节点之间所需交互范围,对于蛋白质几何图来说是相当大的。图1 (b) 显示了一个蛋白质的三维结构,其中线显示了连接原子的化学键。由于蛋白质作为一种特定类型的图在序列和结构上都非常复杂,因此来自非相邻节点的信息可能需要在整个网络中传播。大型蛋白质图限制了模拟蛋白质三维结构的方法。学习长程依赖和复杂结构特性的要求在很大程度上增加了我们的任务难度。

    总结:来自非相邻节点的信息可能需要在整个网络中传播。大型蛋白质图限制了模拟蛋白质三维结构的方法。

    ​ 学习长程依赖和复杂结构特性的要求在很大程度上增加了我们的任务难度。

我们提出了一种新颖的图神经网络,用于几何图表示学习,以解决捕捉跨空间维度的复杂几何形状和整合向量和标量特征方面的挑战。具体而言,提出了一种新颖的几何瓶颈感知器 (GBP),用于集成标量和向量特征,并通过模块中的减少参数空间来增强共享的低级表示。GBP 是一种通用的插件结构,适用于几何信息存在的各种领域。此外,我们引入了一种基于 GBP 的等变消息传递神经网络 (GBPNet),用于蛋白质 3D 结构表示学习。该模型可以在特征空间中聚合复杂的空间信息,以捕捉几何模式并增加模型的可扩展性。我们总结了我们的主要贡献如下:

  • 提出了一种新的SO(3)-等变信息传递神经网络。我们为蛋白质几何表示学习提出了一个新的通用框架。我们的SO(3)等变消息传递网络支持各种几何表示学习任务。

  • 提出了一种用于几何表示学习的新型嵌入式模块。我们提出了一种新的几何瓶颈感知器(GBP)来集成几何特征并捕捉3D结构中复杂的几何关系。

    GBP模块的输出与图形旋转和平移是等价的。最重要的是,这种设计允许模型向上扩展以堆叠更多的GNN层,允许图从更大的感受野中学习表示

  • 进行了综合实验。在具有三个蛋白质表示学习任务的三个数据集上进行的综合实验验证了GBPNet能够学习各种下游任务的蛋白质结构中的几何关系,并且优于最先进的方法。

问题总结:

  • 现有的图神经网络来处理蛋白质三维结构不足以捕捉在学习过程的多层次结构信息,急需新的网络来捕捉信息 没有调整好捕捉在空间上靠近但在序列位置上较远的氨基酸之间的相互作用。消息传递范式存在的问题,还需要改进 GNN 的传播方法来处理复杂的三维几何数据。
  • 难以发现和保留节点/边和图谱之间的不同级别的几何特征 需要具有联合学习标量和向量特征能力的模块
  • 来自非相邻节点的信息可能需要在整个网络中传播。大型蛋白质图限制了模拟蛋白质三维结构的方法。
    学习长程依赖和复杂结构特性的要求在很大程度上增加了我们的任务难度。

Saliency-Regularized Deep Multi-Task Learning显著性正则化的深度多任务学习

摘要

​ 多任务学习(MTL)是一种框架,通过共享知识来提高多个学习任务的泛化能力

​ 虽然浅层的多任务学习可以学习任务关系,但只能处理预定义的特征。现代深度多任务学习可以共同学习潜在特征和任务共享,但它们对任务关系模糊不清。而且,它们预定义了应该在任务之间共享哪些层和神经元,并且不能自适应地学习。

​ 为了解决这些挑战,本文提出了一个新的多任务学习框架,通过补充现有浅层和深度多任务学习场景的优点,共同学习潜在特征和明确的任务关系。

1. 具体而言,我们提出将任务关系建模为任务输入梯度之间的相似度,并提出了其等效性的理论分析。
1. 此外,我们创新性地提出了一个明确学习任务关系的多任务学习目标,通过新的正则化器实现。
1. 理论分析表明,由于所提出的正则化器,泛化误差已经减少。在多个多任务学习和图像分类基准测试上的大量实验证明了所提出方法的有效性、效率以及学习任务关系模式的合理性。

INTRODUCTION

​ 多任务学习(MTL,[5])是一个基于这样一个思想的重要研究领域,即通过与其他相关任务结合使用进行归纳偏置,可以提高某个任务的性能

​ 传统的浅层多任务学习方法可以为单个任务拟合模型并学习任务关系,但它们不专注于从头生成特征,而是依赖于预定义并明确的特征[42, 46]。近年来,深度表示学习使得 MTL 能够“深入”,使其能够在拟合任务的预测模型的同时生成特征。

​ 深度多任务学习通常根据两种将任务模型相关联的方式进行分类:硬参数共享和软参数共享。

  • 硬参数共享方法[26, 48]本质上硬编码了哪些神经元或层用于不同任务的共享,哪些部分不共享,而没有自适应地完成。此外,它们通常共享表示学习层(例如卷积层),而不是决策层(例如用于分类的全连接层)。
  • 软参数共享方法[8, 30]不需要硬编码共享模式,而是为每个任务构建单独的模型,并“软化”地规范它们之间的相关性。因此,软参数共享在学习任务关系方面具有更好的灵活性,但可能不是很高效,因为它的模型参数随着任务数量呈线性增长。

相比之下,硬参数共享更“简洁”,但需要预定义哪些部分是共享的,哪些部分不共享。

总结:介绍硬参数共享和软参数共享以及多任务学习

因此,尽管多任务学习(MTL)是一个持久存在的研究领域,但它仍然是一个具有挑战性和开放性的领域,需要付出更多的努力来解决上述硬参数共享和软参数共享的模型灵活性和简洁性之间的平衡等挑战。虽然最近有一些尝试试图缓解这种困境,例如在硬参数共享中在任务特定层中规范化任务关系,以实现未共享层中的知识转移 [26],以及通过分支[27]或神经架构搜索[40]等方法自适应地学习共享哪些部分或不共享哪些部分,但研究前沿仍然存在多个关键瓶颈,包括:

(1)难以规范不同任务的深度非线性函数。自适应地学习任务关系需要规范不同任务的预测函数,然而对于非线性-非参数函数而言,这要求在输入的整个连续域内进行规范化,因此更加困难。为了解决这个问题,现有的工作[26,39]通常采用简化的问题,即规范化神经网络参数。请注意,这种简化偏离了原始问题并过于受限。例如,有两个具有不同潜在神经元排列的神经网络可以表示相同的函数。此外,即使它们具有不同的架构,它们仍然可能表示相同的功能 [22]。这种差距会使模型的通用性和有效性下降。

(2)联合特征生成和任务关系学习缺乏可解释性。尽管浅层MTL无法生成特征,但由于它们通过手工制作特征的使用方式来学习显式的任务相关性,因此其具有良好的可解释性。然而,在深度MTL中,生成的特征没有明确的含义,黑盒模型之间的关系高度模糊。提高生成特征和任务关系的可解释性非常重要,但也具有挑战性。

(3)难以进行理论分析。虽然对于浅层MTL有丰富的理论分析,例如关于广义误差[3]和规范化MTL算法满足表现定理的条件[2],但类似的分析面临强大的障碍,无法将其扩展到输入空间由按层嵌入所给出的神经网络的深度MTL中。增强模型容量和不同深度MTL模型之间的理论关系的理论分析至关重要。

​ 本文提出了一种新的显著性正则化深度多任务学习(SRDML)框架来解决上述挑战。

  1. 首先,我们将传统线性多任务学习中的特征权重重新考虑为输入梯度,然后借用显著性检测的概念将特征学习推广到非线性情况。
  2. 其次,我们将任务关系问题重新定义为任务之间显著区域之间的相似性,以正则化和推断任务关系。
  3. 第三,为了验证我们的假设,我们对它们的等价性进行了理论分析。同时,我们还对所提出的正则化如何有助于减少泛化误差进行了理论分析。
  4. 最后,我们在合成和多个大规模真实世界数据集上与各种基线进行比较,证明了我们的模型的有效性和效率。
posted @ 2023-03-30 11:51  杀戒之声  阅读(169)  评论(0编辑  收藏  举报