《论文笔记--跨模态检索研究综述-2018》学习笔记
出处:https://blog.csdn.net/lingpy/article/details/96468326
关键词:
文本模态特征集
图像模态特征集
相似性度量
子空间方法
不同模态样本对信息
深度学习方法
哈希变换方法
主题模型方法
深度学习的特征抽取能力
平均精度(Average Precision)
平均精度均值(Mean Average Precision)
文章脉络
1、跨模态检索定义
2、跨模态检索国内外团队
3、跨模态检索主要方法
4、跨模态检索主要评价方法
1、跨模态检索定义
2、跨模态检索国内外团队
国外
Rasiwasia[1] 在2010年提出将典型相关分析方法应用到文本和图像间的跨模态检索。
国内
北京大学彭宇新老师课题组
采集并发布了XMedia数据集,并在半监督跨模态检索等方面做了深入研究。
北京交通大学张磊[2] 博士和北京邮电大学花妍[3] 博士等分别在语义一致的跨模态关联学习方面做了深入研究。
浙江大学金仲明[4] 博士和北京邮电大学冯方向[5] 博士分别在基于深度学习的跨模态检索研究中取得了很好的成果。
西安光电精密机械所的李学龙老师课题组在跨模态哈希算法方面做出了突出的贡献。
中国科学院王亮和赫然老师课题组
南京大学李武军老师课题组
浙江大学杨易老师课题组
厦门大学纪嵘嵘老师课题组
电子科技大学沈复明老师课题组等
就跨模态检索数据集的采集、跨模态关联学习、高层语义建模、跨模态哈希学习等方面进行了广泛的研究
3、跨模态检索主要方法
跨模态检索的主流方法大致可以分为四类:子空间的方法、深度学习的方法、哈希变换的方法和主题模型的方法。
子空间的方法
基本思想
利用不同模态样本对的成对共生信息学习投影矩阵,将不同模态的特征投影到一个共同潜在子空间,然后在该子空间中度量不同模态的相似性,从而实现跨模态检索。
基于深度学习的跨模态检索方法
基本思想
利用深度学习的特征抽取能力,在底层提取不同模态的有效表示,在高层建立不同模态的语义关联。
两个阶段
首先,对不同模态学习单独的表示,然后利用高层网络最大化不同模态表示的相关性。
基于哈希变换的跨模态方法
基本思想
利用不同模态的样本对信息,学习不同模态的哈希变换,将不同模态特征映射到一个汉明(Hamming)二值空间,然后在汉明空间实现快速的跨模态检索。哈希映射学习的基本依据是相似样本的哈希编码是相似的
主题模型法
基本思想
主题模型法基本思想是将跨模态数据的底层特征映射到一个“隐性语义空间”。与上述方法不同,基于主题模型的方法通过生成式模型来发掘跨模态数据中隐含主题空间,学习得到的”主题”具有较强的可解释性。
4、跨模态检索主要评价方法