少女折寿中

跨模态检索学习笔记

跨模态检索概要

现有的检索技术主要为单模态检索和多模态检索。单模态检索要求查询词和检索集属于同一种模态类型,多模态检索则是融合不同模态进行检索,通过利用不同模态的互补信息达到提高检索准确率的目的。在多模态检索中,查询集和检索集必须至少有一个模态是相同的。

跨模态检索中不同模态数据之间呈现底层特征异构,高层语义相关的特点。

跨模态检索的主要问题是如何度量不同模态之间的相似性,因为不同模态的异质同源特性。跨模态检索的关键在于如何关联不同模态,难点就是跨越语义鸿沟。研究主要途径是通过对不同模态之间的关系进行建模,学习到共同的潜在空间表示,然后在共同潜在空间中进行相似性度量,从而实现跨模态的检索。构建具有足够多样性和代表性的跨模态检索数据集也非常具有挑战性。

跨模态检索方法

归纳起来,跨模态检索的主流方法大致可以分为四类:子空间的方法、深度学习的方法、哈希变换的方法和主题模型的方法。

子空间方法

基本思想是利用不同模态样本对的成对共生信息学习投影矩阵,将不同模态的特征投影到一个低维的共同潜在子空间,然后在该子空间中度量不同模态的相似性,从而实现跨模态检索。这种方法可以保留原始数据的主要信息,有效降低数据的维度,减少冗余信息,提升跨模态检索的效率。

在子空间学习中,常用方法包括典型相关分析、多维尺度分析、核主成分分析等。这些方法通常基于矩阵分解或奇异值分解等数学原理对数据进行降维,得到一组低维子空间,使得在这个子空间中的数据距离能反映原始数据的相似度。

这些子空间类的方法主要目的是学习到判别性的共享子空间,主要途径是最大化相关性。这些方法在跨模态检索中取得了较好的效果,但一个共同的不足就是没有考虑各模态内的数据局部结构和模态间的结构匹配。事实上,与一个模态中的邻域内样本对应的另一个模态内的样本也应该具有相邻关系,反之亦然。另外子空间方法学习到的都是线性映射,无法有效的建模不同模态的高阶相关性。

深度学习方法

基本思想是利用深度学习的特征抽取能力,在底层提取不同模态的有效表示,在高层建立不同模态的语义关联。
一般基于深度学习的跨模态检索方法包括两个阶段:首先,对不同模态学习单独的表示,然后利用高层网络最大化不同模态表示的相关性。

整体上,相比如前面的子空间方法,深度学习方法取得了更好的检索结果,这部分得益于大量的训练样本、超级的计算能力和深度模型的丰富表示能力。然而上述方法主要关注的还是底层特征学习和高层网络相关性,而对不同模态内的数据局部结构和模态间语义类结构关联缺乏关注和深入研究。

有研究通过结构保持的神经网络有效提高了检索精度,这证实了对模态内局部结构研究的重要性,同时也启发我们应该对模态内结构和模态间结构进行深入研究。子空间方法和深度学习方法都是基于实值表示的跨模态检索,这对大规模数据集来说是非常耗时的,且需要大量的存储空间。

哈希变换方法

基本思想是利用不同模态的样本对信息,学习不同模态的哈希变换,将不同模态特征映射到一个汉明二值空间,然后在汉明空间实现快速的跨模态检索。哈希映射学习的基本依据是相似样本的哈希编码是相似的。

该方法最小化相似样本的汉明距离,同时最大化不相似样本的汉明距离。

哈希类检索算法具有存储空间小、检索速度快等特点。存在的主要问题是二值化的过程中有精度损失,实值到二值化的过程中原有结构被破坏,没有充分考虑模态内的数据结构和模态间的结构匹配关联,优化计算复杂等。

大多数哈希方法都是将不同模态的数据映射到公共空间,使其可进行比较。有监督的方法可以有效的缩小跨模态的语义鸿沟,但是过于依赖标签,容易引入噪音。无监督学习将语义信息保留在哈希码中,不能有效的缩小语义鸿沟。

主题模型方法

基本思想是将跨模态数据的底层特征映射到一个“隐性语义空间”。与上述方法不同,基于主题模型的方法通过生成式模型来发掘跨模态数据中隐含主题空间,学习得到的"主题"具有较强的可解释性。

主题模型法的主要优势在于直接对语义进行建模,能较好地刻画不用模态的语义关联,不足的是没有综合考虑不同模态的结构。

未来趋势

  1. 大规模数据集的采集,建立语义类更多、模态类型更多的跨模态数据集。
  2. 更精细的模态表示,不同模态的精细表示是保持判别性的主要途径。现有方法在单模态表示时过于粗糙,不利于后续跨模态关联建模。
  3. 多角度的模态关联建模,跨模态检索的关键是建立不同模态之间的关联。这需要从模态间语义类关联、模态共生关联、局部结构相似关联等角度建立模态间多层次、多结构的关联。
  4. 与深度学习融合发展,深度学习的分层特征抽象能力为图像的表示学习提供了很好的思路。如何结合深度学习的分层特征学习特点,分层次建立不同模态间关联是值得关注的研究方向。

参考文献

欧卫华,刘 彬,周永辉,宣瑞晟:跨模态检索研究综述
侯嘉润,施水才,王洪俊:跨模态检索研究方法综述
樊 花,陈华辉:基于哈希方法的跨模态检索研究进展

posted @ 2024-02-29 15:46  ycccc319  阅读(147)  评论(0编辑  收藏  举报