Loading

跨模态检索研究综述

摘 要:跨模态检索是信息检索领域未来发展的一个重要方向,由于在不同形式数据内容的相似性定义上存在一定主观性,输入与输出模态之间的一致性问题仍是一个挑战。现有的研究已经提出了许多方法来处理这个问题,以减小不同模态之间的语义差距。本文回顾了跨模态信息检索的研究工作,并对一些代表性方法及最新进展按分类进行了讨论和分析,然后介绍了该领域的几个常用数据集和性能评价指标。最后总结了一些开放性问题和未来可能面临的挑战。

关键词:跨模态检索;跨媒体检索;深度学习;实值表示;二进制表示

An Overview of Cross-Modal Retrieval Research

**Abstract**: Cross-modal retrieval is an important direction in the future development of information retrieval. Due to the subjective definition of similarity between different forms of data content, the consistency between input and output modes is still a challenge. Existing research has proposed a number of approaches to deal with this problem, in order to reduce the semantic gap between different modes. This paper reviews the research work of cross-modal information retrieval, discusses and analyzes some representative methods and the latest progress by classification. Then introduces some common data sets and performance evaluation indicators in this field. Finally, some open issues and possible challenges in the future are discussed according to the review.

Key word: Cross-modal retrieval , Cross-media retrieval , Deep learning , Real-valued representation , Binary representation

1 引言

数据的模态是传达关于某一对象或事件的信息的来源或存在方式,其表现形式有音频、文本、图像、视频等,当数据包含一个以上的模态时,我们可以称之为多模态数据。随着大数据时代的到来,存储的数据往往呈现出多模态的形式,多模态下的融合、存储、检索等多模态学习问题也随之受到广泛关注。信息检索是用户从大量数据中查找和获取信息的重要手段,当人们搜索某样事物时,往往希望获取它的不同表现形式以更好地了解事物。例如,当人们想要了解自由式滑雪U型场地技巧时,希望能通过关键词检索的同时获取它的相关文本概念解释、滑雪图像和视频介绍等,这就涉及到了多模态信息检索。
传统的信息检索方式是单模态的,即从输入查询和输出结果都是从同一个渠道获取的内容,例如用文本搜索文本信息。然而,这种检索方式在面临大规模多模态数据时,则难以发挥出很好的作用。图1中展示了多模态检索和跨模态检索的主要区别。跨模态检索属于多模态学习的一个子方向,即给定来自一个模态(例如图像)的查询实例,然后检索另一模态(例如文本)中语义相似的实例。如今,跨模态检索在医疗、商业、体育、教育等领域都有很高的应用价值,其中涉及到图像-文本的跨模态检索所占比重较大。以医学领域为例,医护人员可以使用图像-文本跨模态检索系统,通过相关病症的描述或关键词,从存放病人病历资料的数据库中检索符合该描述的医学影像。跨模态检索的基本思想是通过特征提取和内容的相关性分析集成或关联语义相似的多种模态的信息,以获得比单一渠道信息来源更好的结果,它的关键在于对模态的特征提取以及不同模态之间的关系进行建模,难点是尽可能减小不同模态之间的语义差距。

image.png
Figure 1: 多模态检索与跨模态检索主要区别

image.png
Figure 2: 跨模态检索的基本流程

1.1 相关工作

围绕跨模态检索领域的相关调查研究,Wang等[1]于2016年回顾了跨模态检索的一些代表性方法,重点从实值和二进制表示学习进行概述,但缺少近年来在深度学习等方面的重要进展。2018年,Peng等[2]总结了跨媒体检索的概念、基准、方法和挑战,但以按监督分类的机器学习方法为主。Ayyavaraiah等[3]只探讨了基于联合图正则化(JGR)的跨媒体检索。Cao等[4]于2020年介绍了多模态检索的哈希方法。相较于上述文章,本文基本上涵盖了跨模态领域分别在两种表示学习方法下的主流技术方法,包括传统方法和深度学习方法等,重点关注近年来最新的研究进展。

1.2 主要贡献

本文的主要贡献如下:
(1)对跨模态检索领域的主流技术和最新进展进行了介绍,为初学者快速熟悉该领域的主流研究和发展现状提供了便利;
(2)对跨模态检索技术按照表示学习方法和模型框架实现方法进行了简单分类,并对这些分类之间进行了比较分析;
(3)介绍了跨模态检索领域研究常用的几个代表性数据集和性能评价指标,可用于对跨模态检索方法的训练以及性能的评估;
(4)总结了跨模态检索领域中存在的问题,以及未来可能面临的挑战。

1.3 文章安排

本文第2节按分类介绍不同的跨模态表示学习方法及具体的检索技术;第3节介绍跨模态领域的一些常用数据集和性能评价指标;第4节对跨模态检索领域中存在的开放性问题以及未来可能面临挑战进行了讨论和总结。

image.png
Figure 3: 跨模态检索技术分类

2 跨模态检索技术

跨模态检索根据模态的表示方法主要分为两大类:实值表示学习和二进制表示学习。实值表示学习方法旨在学习不同模态的实值通用表示,检索的准确度较高,但运行效率较低;而二进制表示学习方法则将所有模态映射到一个公共的汉明空间,由于映射过程中部分信息丢失,检索的精度较低,但在二进制表示下检索速度较快。图2展示了跨模态检索的基本流程。图3展示了跨模态检索的分类。图4展示了本文中介绍的跨模态技术方法的分类。

2.1 实值表示学习

实值表示学习方法通常可以保证检索的准确度,其难点是如何有效缩短不同模态之间的语义鸿沟。本节中按照学习方法分类,介绍了实值表示学习下的跨模态检索技术。

2.1.1 传统方法

不论是单模态还是多模态,传统的信息检索方法往往与统计和概率有关,通过这类方法检索需要对数据进行特征的提取。对于文本文档的特征提取,词袋法(BoW)将输入的文本语句视为单词的集合,通过文档中出现过的所有单词及每个单词的出现次数来体现文档的特征。TF-IDF[5]基于BoW生成语料库来存储存储已有文章和词条,通过计算词条在语料库中出现的频率对BoW进行加权处理,从而提取出文档中的关键词。方向梯度直方图(HOG)和支持向量机(SVM)相结合来对图像特征向量进行处理,可以得到较好的结果,代表性工作有Dalal等[6]提出的在图像中对人类进行检测的模型。对语音信号进行识别和处理的模型有LPCC、MFCC和CQCC等。
在医学领域,一些重要的文本或图像往往隐藏在大量无关数据中,这使得检索难度增加。感兴趣区域(ROI)是图像中受到重点关注的区域,相关人员经常使用注释标记,如箭头、字母或符号,以突出ROI,这种关联在图像中重要区域的视觉特征与其语义解释之间建立了桥梁,有助于减少图像的处理时间。Rahman等[7]基于MRF和HMM理论实现CT扫描图像中ROI的识别与分类,使ROI的视觉特征可以映射到文本概念,用于通过关键词查询相关图像。自动图像标注(AIA)由于其能高效挖掘并标注图像和文本之间的相关性而被应用于跨媒体检索,Ying等[8]提出了一种基于AIA的概率模型,基于图像的训练数据集自动为未注释的图像分配关键字,可以有效提高图像注释的准确性。
子空间学习可以有效消除不同模态之间的异构性,基于相关性分析获取不同模态间的互补信息,利用先验知识挖掘数据的高层语义。

2.1.2 子空间学习方法

由于不同模态信息的异构性,跨模态检索的前提之一是不同模态间的内容相互关联。子空间学习的典型方法之一CCA最早是由Hotelling[9]于1992年提出的,用于描述两组变量之间的关系,属于线性无监督方法。但CCA由于无法处理变量之间的非线性关系,且无法捕获模态内语义一致性,存在一定缺陷。

image.png
Figure4:文中提及的跨模态检索相关研究分类

为了克服CCA的局限性,后续围绕它开发出了几种变体。Katsurai等[10]利用CCA将标记图像的文本和视觉特征投影到潜在空间,基于每个概念的代表性分布导出概念之间的语义相关性和每个概念的抽象级别,进而提取概念之间语义关系。KCCA[11]是CCA的一种非线性推广,通过学习图像和文本之间的语义描述,实现基于内容的图像检索。但由于KCCA是非参数化的,其时间和空间复杂度较高,在面对大规模数据集时会遇到困难,为了解决该问题,提出了参数化替代模型DCCA[12]。Shao等[13]在CCA的基础上提出了改进后的ICCA,他们提出了两种基于文本特征的有效语义特征,以提高模态内语义一致性,并将传统的CCA从2视图扩展到4视图以缓解过度拟合,此外还提出了一种相似性度量来改进距离度量。为了解决存在多标签注释的跨模式检索问题,Ranjan等[14]引入了多标签典型相关分析(ml-CCA),相较于CCA的其他变体性能更加优越。
除了CCA及其变体外,Wang等[15]基于图正则化搭建了一个新的联合学习框架中来处理多模态数据之间的相关性度量和耦合特征选择,并提出了一种迭代算法来解决所提出的联合学习问题,该方法相较于大多数子空间学习方法具有优越的性能。同样基于图正则化,Xu等[16]提出了一种带有半监督图正则化的语义一致性跨模态检索(SCCMR)算法,搭建了一个统一的框架来集成标签的预测和投影矩阵的优化。此外,为了解决从不同视觉线索和模态中嵌入多视图的问题,Cao等[17]提出了使用Rayleigh商的子空间学习方法的解决方案(MvMDA)。Wu等[18]提出了一种跨模态检索方法AAT,通过增强对抗训练将原始模态转移到目标模态来解决跨模态的语义对齐问题。相较于标记过的数据,未标记的数据更容易收集并有助于不同模态间内容相关性的利用,Zhang等[19]基于这一事实提出了一种广义半监督结构化子空间学习方法(GSS-SL)来完成跨模态检索任务。

2.1.3 基于深度学习的方法

近年来,深度学习(DL)和机器学习(ML)的迅速发展,它们在跨模态检索领域的应用也具有广阔的发展前景。相较于传统方法,神经网络强大的多层非线性能力使深度学习更适合用于特征提取和不同模态间语义关系的挖掘,常用于图片-文本跨模态检索问题,基本网络结构有CNN、RNN、LSTM等。CNN由于其自身特性,适用于很多计算机视觉任务。Wei等[20]从CNN模型中提取CNN视觉特征,以此作为通用图像表示来处理跨模式检索。在特征提取方面,Jiang等[21]提出了一种基于深度学习的实时互联网跨媒体检索方法(DBN),根据贡献对特征向量进行排序,然后消除不必要的向量以实现特征提取。Yang等[22]设计了一个具有卷积层和完全连接层的神经网络用来提取图像的特征,一个完全连接的神经网络来提取文本文档的语义特征,提出相关性对齐(S-3CA)来学习多模态数据表示的共享语义空间。相比于有监督和无监督,半监督方法在一定程度上平衡了标签或注释成本和准确性之间的冲突。Mandal等[23]提出了一种新的深度半监督框架,它可以不受限地处理标记和未标记的数据,然后学习不同模态的公共表示以实现检索。
通过设计相似性函数可以处理模态间的语义关联问题,深度学习网络在计算机视觉和自然语言处理方向上的优势有助于它从文本数据和图像中提取语义表达。He等[24]提出了一种深度双向表示学习模型(DBRLM),采用两个基于卷积的网络来完成图像和文本的表示学习,并设计了一种双向网络架构来捕获双向搜索的跨模式检索特性。此外,通过挖掘潜在特征之间的语义关系也可以实现相似度的提高。Xia等[25]提出了一种深度相关挖掘方法(LM-DCCA),通过深度学习训练不同的媒体特征,然后融合它们之间的相关性来实现跨媒体语义对齐,在此基础上,使用Levenberg-Marquart算法解决了深度学习在梯度训练中容易陷入局部最小解的问题。
深度学习方法还可以和子空间学习方法相结合。Hu等[26]提出一种可扩展深度多模态学习(SDML),预定义一个公共子空间,通过训练将多模态数据投影到该空间,且模态数量不受限制。Xu等[27]在深度神经网络(DNN)的基础上提出了一种深度对抗性度量学习方法(DAML),将不同模态的标记数据对非线性映射到共享的潜在特征子空间中。受零射击学习的启发,Xu等[28]提出了一种具有自我监督的三元对抗网络(TANSS)来实现零镜头跨模态检索,该模型集成了两个语义特征学习子网络和一个自我监督的语义子网络,最大化模态间语义特征的一致性和相关性。
在深度学习方法中,训练数据不足会限制训练的有效性,并有可能导致过拟合,转移学习通常被用于缓解训练数据不足的问题,但传统的转移学习方法无法实现跨模态的语义知识共享。基于单一模态渠道上的知识转移,Huang等[29]提出了一种模态对抗混合转移网络(MHTN)实现跨模态源的知识转移,并学习跨模态公共表示,包括一个模态共享知识转移子网络,以星形网络结构实现知识转移并促进跨模态公共表示学习;一个模态对抗性语义学习子网络,用于增强转移过程中的语义一致性。

2.1.4 其他方法

一些研究人员将跨模态检索视为排序问题,在共享子空间中对不同模态间的相似性进行排序。以优化排序模型为目标,Xu等[30]提出利用关系图和逐点约束进行排序学习(LR(2)GP),在将数据嵌入公共子空间前,利用单个模态之间的关系来提高排序性能,并选择了一种从逐点和成对学习逐渐过渡到列表学习的动态插值算法来合理处理损失函数的融合问题。
在主题模型方面,Qin等[31]提出了一种跨模式多媒体检索主题相关模型(TCM),在该模型中,图像分量由一种特征包表示,文本成分由从潜在主题模型(如潜在狄利克雷分配(LDA))学习的主题分布描述,TCM对它们进行联合建模,然后将这两个中级特征映射到语义空间来研究它们之间的统计相关性。

2.2 二进制表示学习

哈希函数又称散列函数,用于将随机大小的数据映射到固定区间,使数据量变小、数据区间固定,输入数据可以看作检索目标,对应的哈希值即为它的索引,可以生成一种便于快速查找数据的数据结构(哈希表)。跨模态哈希检索结合了跨模态检索和哈希技术的优点,存储空间小、存储成本低、检索速度快,但在降维和二值化过程中容易导致数据缺失和精度下降。本节中将哈希方法分为通用哈希方法和基于深度学习的哈希方法,介绍了二进制表示学习下的跨模态检索技术。

2.2.1 通用哈希方法

通用哈希方法包括除使用深度学习方法外的其他哈希方法。跨模态哈希通常通过将多模态数据映射到低维的公共汉明空间来学习二进制代码。大多数监督方法利用类标签等关系信息来衡量不同模态数据间的内容相似性,基于此Shen等[32]提出了一种新的有监督的跨模态哈希方法,称为跨模态哈希的子空间关系学习(SRLCH),它利用语义空间中标签的关系,使不同模态下的相似数据在低维汉明子空间中更接近。为了学习共享潜在语义空间中多模态数据的统一哈希码,从而在该空间中可以有效估计模态间相似性,Fang等[33]提出了一种用于无监督跨模态检索的多模态图正则化平滑矩阵因子化哈希方法(MSFH),其中多模态图正则化项可以保持原始数据的拓扑结构,平滑矩阵可以保证学习的字典和提取的公共特征的稀疏性,从而减少哈希过程中的量化损失。Tang等[34]提出了一种基于集合矩阵分解的跨模态哈希方法(SMFH),将跨模态类别一致性和单模态中的局部一致性表述为目标函数中的图拉普拉斯算子,使得集体矩阵分解获得的潜在语义特征的辨别能力提高。为了获得二进制码,传统方法常常放松离散约束,导致相对较高的计算成本和量化损失,Lu等[35]提出了一种离散潜在语义散列(DLSH)方法,将显式语义标签与二进制码相关联以提高精度,同时DLSH通过高效的离散哈希优化直接学习二进制代码,从而提高了哈希优化中的效率并减少了量化损失。

2.2.2 基于深度学习的哈希方法

深度学习方法在特征提取方面具有显著优势,通过将哈希方法与深度学习方法相结合,可以有效提高跨模态检索的准确率。深度视觉语义哈希(DVSH)[36]模型能够在一个完整的深度学习架构中创建文本和图像的简洁的哈希代码;PRDH和DVSH类似,也是通过端到端深度学习架构生成紧凑的哈希代码;深度跨模态哈希(DCMH)将特征学习和哈希码学习集成到同一框架中。
以前的大多数跨模态散列方法都是基于浅层架构,不能有效地利用不同模态数据之间复杂的异构相关性。Deng等[37]提出了一种用于跨模态检索的基于三元组的深度哈希网络(TDH),以保留语义信息并增强学习哈希码的判别能力。TDH在图像模态和文本模态上分别应用了一个深度神经网络用于特征学习和提取,然后将特征映射到汉明空间中。图5展示了TDH中图像模态的CNN架构(图5(a))和文本模态的MLP架构(图5(b))。

image.png
Figure5:TDH模型中用于特征提取的深度神经网络架构
image.png
Figure 6: SHDCH 的整体框架

为了解决交叉模式零镜头哈希(CMZSH)检索任务,Ji等[38]提出了一种新的属性引导网络(AgNet),将不同的模态数据对齐到语义丰富的属性空间中,弥补了模态异构性和零镜头设置造成的差距,在单模态和跨模态零镜头图像检索任务上具有很大的优势。针对多标签图像文本交叉检索任务,Ji等[39]设计了一个深度哈希框架(DMSH),它可以同时捕获不同形式的数据的二进制相似性和复杂的多级语义结构。
Zhan等[40]提出了一种监督分层深度跨模式哈希方法(SHDCH),将标签层次结构的每一层的相似性和不同层之间的关联性都植入到哈希码学习中,通过显式地挖掘分层标签来学习哈希码,还提出了一种迭代优化算法来直接学习离散哈希码。图6展示了SHDCH的整体框架,包括特征学习和哈希码学习两个组件。特征学习部分采用卷积神经网络(CNN)和多层感知机(MLP)来获取图像和文本模式的语义特征,哈希码学习部分包含各层实例类相似性的定义和不同层类间相似性的定义。将它们嵌入目标函数获得中间乘积,即类哈希码,然后生成实例的哈希代码,同时保持定义的相似性。

3 常用数据集及性能评价指标

部分模型的训练离不开数据集的支撑,模型和技术的评估也离不开基准数据集和通用性能评价指标。

3.1 常用数据集

研究人员已经组成了不同的多模态数据集,用来对跨模态检索模型进行训练或对跨模态检索技术的性能进行评估。表7给出了关于Wikipedia、NUS-WIDE、IAPRTC-12、MIRFlickr25k、MicrosoftCOCO这几个常用数据集的主要参数指标及相关信息。图9中展示了IAPRTC-12数据集的一个示例。

Table 7: 跨模态检索常用数据集
image.png

3.2 常用性能评价指标

本节介绍了跨模态检索中常用的性能评价指标。
(1)准确率、精确率、召回率和PR曲线:
我们将样本根据识别结果按图8进行划分。

image.png
Figure 8: 正 确 的 正 样 本 (TP) , 错 误 的 正 样 本 (FP),错 误 的 负 样 本 (FN) 和 正 确 的 负 样 本 (TN)
image.png
Figure 9: IAPR TC-12 数据集示例

准确率的计算公式为:

\(Accuracy=\frac{TP+TN}{TP+TN+FP+FN}\)

精确率的计算公式为:

\(Precision=\frac{TP}{TP+FP}\)

召回率的计算公式为:

\(Recall =\frac{TP}{TP+FN}\)

PR曲线,即精确率-召回率曲线。通过PR曲线,可以清楚地观测到精确率与召回率的变化情况,以此来选择一个合理的阈值。 (2)F-score: F-score是一个用来衡量模型的召回率与精确率的综合评价指标。F-score的计算公式为:

\(F − score =(1+\beta ^2)\frac{P recision · Recall}{\beta ^2 · P recision + Recall}\)

其中用到频率最高的是当$\beta=1$时的F1 值,即:

\(F − score = 2 ·\frac{P recision · Recall}{P recision + Recall}\)

(3)MAP: 平均精度(MAP)是用于评估跨模态检索算法性能最流行的指标,它用来衡量算法的检索结果与查询数据相关或不相关。平均精度定义为:

\(AP =\frac{1}{R} \sum_{r=1}^{R} P(r)\delta (r)\)

4 总结

本文介绍了研究人员在跨模态检索领域,尤其是图像-文本检索方向,所做出的杰出工作,并对它们进行了分类和讨论,同时还介绍了该领域常用的基准数据集和性能评价指标。近年来,随着多模态数据规模的迅速增长,许多跨模态检索技术已经被应用于医学、传媒、商业、烹饪等多个领域,在医学影像整合与研究、网络舆情检测与控制、灾难与紧急事件管理、材料识别等方向上发挥出重要作用。
尽管在这一领域已经出现了许多重大突破,但一些研究中仍然透露出一些待解决的问题和未来可能面临的挑战:
(1)数据特征的提取方面:部分检索方法通过建立索引来进行跨模态搜索,而索引的建立很大程度上依赖于对模态数据特征的提取。特征提取作为许多跨模态检索系统构建的初始和基础步骤,可能会影响到后续的一系列技术搭建过程。因此,研究人员需要考虑根据不同模态的数据结构特点,为其选择合适的特征提取方法。
(2)算法的可伸缩性:随着大数据时代的到来,数据规模迅速增大,很多数据存储系统规模甚至可以达到EB、ZB级别,这将在极大程度上考验算法的可伸缩性。如何避免算法复杂度由于数据量增加而明显升高,提高跨模态算法的运行效率,还需进一步探索。
(3)算法的通用性:现有的跨模态领域研究中,由于算法的局限性或特异性,大部分跨模态检索技术都只支持对特定领域多模态数据的检索,这也是跨模态检索还无法被大面积现实应用所接受的原因。如今仍缺少适用于通用领域或大部分场景的跨模态检索技术,跨模态检索技术的通用性还有待进一步提高。
(3)数据模态的拓展:通过对近年跨模态检索领域的研究可以发现,很大一部分研究聚焦于图像-文本领域。相比之下,像音频-视频、音频-图像、视频-文本等模态组合的跨模态检索则较为冷门,已有的检索方法还存在一定的局限性和缺陷。在不同模态的拓展方面,未来还有很大的研究和发展空间。
(3)对数据集的需求:由3.1节中对常用基准数据集的介绍可知,图像-文本领域的大多数常用数据集来源于社交媒体网站或组织个人提供,如WikiPedia、NUS-WIDE等,内容以日常生活场景为主。这些数据集的优点是具有普适性,但缺点是具有高度相似性,且对一些特定领域的研究,例如医学影像ROI的检索、食谱视频检索等无法起到很好的训练和评估效果。因此,跨模态检索的一些深入研究仍然缺少合适的数据集,未来需要引入更多新的、多来源、多领域、多样化的多模态数据集。
未来在新算法的引入和经典算法的改进方面还需要做大量的研究工作,距离实现理想的通用跨模态检索效率和效果仍有很长的路要走。

参考文献

Kaiye Wang, Qiyue Yin, Wei Wang, Shu Wu, and Liang Wang. A comprehensive survey on cross-modal retrieval. arXiv preprint arXiv:1607.06215, 2016.
Yuxin Peng, Xin Huang, and Yunzhen Zhao. An overview of cross-media retrieval: Concepts, methodologies, benchmarks, and challenges. IEEE Transactions on circuits and systems for video technology, 28(9):2372–2385, 2017.
Monelli Ayyavaraiah and Bondu Venkateswarlu. Joint graph regularization based semantic analysis for cross-media retrieval: a systematic review. International Journal of Engineering & Technology, 7(2.7):257–261, 2018.
Wenming Cao, Wenshuo Feng, Qiubin Lin, Guitao Cao, and Zhihai He. A review of hashing methods for multimodal retrieval. IEEE Access, 8:15377–15391, 2020.
Akiko Aizawa. An information-theoretic perspective of tf–idf measures. Information Processing & Management, 39(1):45–65, 2003.
Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In 2005 IEEE computer society conference on computer vision and pattern recognition (CVPR’05), volume 1, pages 886–893. Ieee, 2005.
Md Mahmudur Rahman, Daekeun You, Matthew S Simpson, Sameer K Antani, Dina Demner-Fushman, and George R Thoma. Interactive cross and multimodal biomedical image retrieval based on automatic region-of-interest (roi) identification and classification. International Journal of Multimedia Information Retrieval, 3(3):131–146, 2014.
Ying Xia, YunLong Wu, and JiangFan Feng. Cross-media retrieval using probabilistic model of automatic image annotation. International Journal of Signal Processing, Image Processing and Pattern Recognition, 8(4):145–154, 2015.
Harold Hotelling. Relations between two sets of variates. In Breakthroughs in statistics, pages 162–190. Springer, 1992.
Marie Katsurai, Takahiro Ogawa, and Miki Haseyama. A cross-modal approach for extracting semantic relationships between concepts using tagged images. IEEE Transactions on Multimedia, 16(4):1059– 1074, 2014.
David R Hardoon, Sandor Szedmak, and John Shawe-Taylor. Canonical correlation analysis: An overview with application to learning methods. Neural computation, 16(12):2639–2664, 2004.
Galen Andrew, Raman Arora, Jeff Bilmes, and Karen Livescu. Deep canonical correlation analysis. In International conference on machine learning, pages 1247–1255. PMLR, 2013.
Jie Shao, Zhicheng Zhao, Fei Su, and Ting Yue. Towards improving canonical correlation analysis for cross-modal retrieval. In Proceedings of the on Thematic Workshops of ACM Multimedia 2017, pages 332–339, 2017.
Viresh Ranjan, Nikhil Rasiwasia, and CV Jawahar. Multi-label cross-modal retrieval. In Proceedings of the IEEE international conference on computer vision, pages 4094–4102, 2015.
Kaiye Wang, Ran He, Liang Wang, Wei Wang, and Tieniu Tan. Joint feature selection and subspace learning for cross-modal retrieval. IEEE transactions on pattern analysis and machine intelligence, 38(10):2010–2023, 2015.
Gongwen Xu, Xiaomei Li, and Zhijun Zhang. Semantic consistency cross-modal retrieval with semisupervised graph regularization. IEEE Access, 8:14278–14288, 2020.
Guanqun Cao, Alexandros Iosifidis, Ke Chen, and Moncef Gabbouj. Generalized multi-view embedding for visual recognition and cross-modal retrieval. IEEE transactions on cybernetics, 48(9):2542–2555, 2017.
Yiling Wu, Shuhui Wang, Guoli Song, and Qingming Huang. Augmented adversarial training for crossmodal retrieval. IEEE Transactions on Multimedia, 23:559–571, 2020.
Liang Zhang, Bingpeng Ma, Guorong Li, Qingming Huang, and Qi Tian. Generalized semi-supervised and structured subspace learning for cross-modal retrieval. IEEE Transactions on Multimedia, 20(1):128–141, 2017.
Yunchao Wei, Yao Zhao, Canyi Lu, Shikui Wei, Luoqi Liu, Zhenfeng Zhu, and Shuicheng Yan. Crossmodal retrieval with cnn visual features: A new baseline. IEEE transactions on cybernetics, 47(2):449–460, 2016.
Bin Jiang, Jiachen Yang, Zhihan Lv, Kun Tian, Qinggang Meng, and Yan Yan. Internet cross-media retrieval based on deep learning. Journal of Visual Communication and Image Representation, 48:356–366, 2017.
Zhenguo Yang, Zehang Lin, Peipei Kang, Jianming Lv, Qing Li, and Wenyin Liu. Learning shared semantic space with correlation alignment for cross-modal event retrieval. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 16(1):1–22, 2020.
Devraj Mandal, Pramod Rao, and Soma Biswas. Semi-supervised cross-modal retrieval with label prediction. IEEE Transactions on Multimedia, 22(9):2345–2353, 2019.
Yonghao He, Shiming Xiang, Cuicui Kang, Jian Wang, and Chunhong Pan. Cross-modal retrieval via deep and bidirectional representation learning. IEEE Transactions on Multimedia, 18(7):1363–1377, 2016.
Dongliang Xia, Lu Miao, and Aiwan Fan. A cross-modal multimedia retrieval method using depth correlation mining in big data environment. Multimedia Tools and Applications, 79(1):1339–1354, 2020.
Peng Hu, Liangli Zhen, Dezhong Peng, and Pei Liu. Scalable deep multimodal learning for cross-modal retrieval. In Proceedings of the 42nd international ACM SIGIR conference on research and development in information retrieval, pages 635–644, 2019.
Xing Xu, Li He, Huimin Lu, Lianli Gao, and Yanli Ji. Deep adversarial metric learning for cross-modal retrieval. World Wide Web, 22(2):657–672, 2019.
Xing Xu, Huimin Lu, Jingkuan Song, Yang Yang, Heng Tao Shen, and Xuelong Li. Ternary adversarial networks with self-supervision for zero-shot cross-modal retrieval. IEEE transactions on cybernetics, 50(6):2400–2413, 2019.
Xin Huang, Yuxin Peng, and Mingkuan Yuan. Mhtn: Modal-adversarial hybrid transfer network for cross-modal retrieval. IEEE transactions on cybernetics, 50(3):1047–1059, 2018.
Qingzhen Xu, Miao Li, and Mengjing Yu. Learning to rank with relational graph and pointwise constraint for cross-modal retrieval. Soft Computing, 23(19):9413–9427, 2019.
Zengchang Qin, Jing Yu, Yonghui Cong, and Tao Wan. Topic correlation model for cross-modal multimedia information retrieval. Pattern Analysis and Applications, 19(4):1007–1022, 2016.
Heng Tao Shen, Luchen Liu, Yang Yang, Xing Xu, Zi Huang, Fumin Shen, and Richang Hong. Exploiting subspace relation in semantic labels for cross-modal hashing. IEEE Transactions on Knowledge and Data Engineering, 33(10):3351–3365, 2020.
Yixian Fang, Huaxiang Zhang, and Yuwei Ren. Unsupervised cross-modal retrieval via multi-modal graph regularized smooth matrix factorization hashing. Knowledge-Based Systems, 171:69–80, 2019.
Jun Tang, Ke Wang, and Ling Shao. Supervised matrix factorization hashing for cross-modal retrieval.
IEEE Transactions on Image Processing, 25(7):3157–3166, 2016.
Xu Lu, Lei Zhu, Zhiyong Cheng, Xuemeng Song, and Huaxiang Zhang. Efficient discrete latent semantic hashing for scalable cross-modal retrieval. Signal processing, 154:217–231, 2019.
Yue Cao, Mingsheng Long, Jianmin Wang, Qiang Yang, and Philip S Yu. Deep visual-semantic hashing for cross-modal retrieval. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 1445–1454, 2016.
Cheng Deng, Zhaojia Chen, Xianglong Liu, Xinbo Gao, and Dacheng Tao. Triplet-based deep hashing network for cross-modal retrieval. IEEE Transactions on Image Processing, 27(8):3893–3903, 2018.
Zhong Ji, Yuxin Sun, Yunlong Yu, Yanwei Pang, and Jungong Han. Attribute-guided network for crossmodal zero-shot hashing. IEEE transactions on neural networks and learning systems, 31(1):321– 330, 2019.
Zhenyan Ji, Weina Yao, Wei Wei, Houbing Song, and Huaiyu Pi. Deep multi-level semantic hashing for cross-modal retrieval. IEEE Access, 7:23667–23674, 2019.
Yu-Wei Zhan, Xin Luo, Yongxin Wang, and Xin-Shun Xu. Supervised hierarchical deep hashing for cross-modal retrieval. In Proceedings of the 28th ACM International Conference on Multimedia, pages 3386–3394, 2020.

posted @ 2023-06-24 23:20  LateSpring  阅读(1609)  评论(0编辑  收藏  举报