多模态综述学习笔记
1 多模态融合架构
1.1 联合架构
每个单一模态通过单独编码后,将被映射到共享子空间中,遵循该策略,其在视频分类、事件检测、情感分析、视觉问答和语音识别等多模态分类或回归任务中都表现出较优的性能。
此外,联合架构对每个单模态的语义完整性有较高要求,数据不完整或错误问题在后期融合中会被放大,一些研究人员通过联合训练或模态相关性来解决这一问题。
多模态联合架构的优点是融合方式简单,且共享子空间通常具备语义不变性,有助于在机器学习模型中将知识从一种模态转换到另一种模态。其缺点是各单模态语义完整性不易在早期发现和处理。
1.2 协同架构
多模态协同架构是将各种单模态在一些约束的作用下实现相互协同。由于不同模态包含的信息不同,因此协同架构有利于保持各单模态独有的特征和排它性。
协同架构在跨模态学习中已经得到广泛应用,主流的协同方法是基于交叉模态相似性方法,该方法旨在通过直接测量向量与不同模态的距离来学习公共子空间。基于交叉模态相关性的方法旨在学习一个共享子空间,从而使不同模态表示集的相关性最大化。
交叉模态相似性方法在相似性度量的约束下保持模态间和模态内的相似性结构,使得相同语义或相关对象的跨模态相似距离尽可能小,不同语义的距离尽可能大。
协同架构的优点是每个单模态都可以独立运行,这一特性有利于跨模式迁移学习,其目的是在不同模态或领域之间传递知识。其缺点是模态融合难度较大,使跨模态学习模型不容易实现,同时模型很难在两种以上的模态之间实现迁移学习。
1.3 编解码器架构
编解码器架构通常用于将一种模态映射到另一种模态的多模态转换任务中,主要由编码器和解码器两部分组成。编码器将源模态映射到向量v中,解码器基于向量v生成一个新的目标模态样本。该架构在图像标注、图像合成、视频解码等领域有广泛应用。
编解码器架构的优点是能够在源模态基础上生成新的目标模态样本。其缺点是每个编码器和解码器只能编码其中一种模态,并且决策模块设计复杂。
2 多模态融合方法
2.1 模型无关的方法
2.1.1 早期特征融合
为缓解各模态中原始数据间的不一致性问题,可以先从每种模态中分别提取特征的表示,然后在特征级别进行融合,即特征融合。
模态之间通常是高度相关的,但这种相关性在特征层和数据层提取难度很大。不同的数据流所包含的信息之间在较高层次才能具有相关性。
由于各个模态的差异性,往往涵盖大量的冗余信息,会采取降维方法来消除冗余信息,通常采用主成分分析等方式。
2.1.2 中期模型融合
基于模型的融合是将不同的模态数据共同输入网络,基于模型的中间层进行融合,模型融合的好处是可以选择融合的位置,也可以实现模态间的交互性,基于模型的融合通常使用多核学习、神经网络、图像模型等方法。
2.1.3 后期决策融合
深度学习模型先对不同模态进行训练,再融合多个模型输出的结果。因为该方法的融合过程与特征无关,且来自多个模型的错误通常是不相关的。
在某些模态数据缺失时,决策级融合也能具有良好表现,且来自不同模态的数据可以分别运用合适的分类器进行训练,不同模态间的错误不会互相影响。决策级融合常见的融合机制有加权、投票、集成学习、规则融合等。
2.2 基于模型的方法
3 多模态对齐方式
3.1 显式对齐方式
3.1.1 无监督方法
无监督方法在不同模态的实例之间没有用于直接对齐的监督标签,部分研究成果都在没有监督信息的前提下,通过度量两个序列之间的相似性,在找到它们之间的最佳匹配后按时间对齐。
尽管无监督对齐方法无需标注数据,可以节省数据标注成本,但对实例的规范性要求较高,需具备时间一致性且时间上没有较大的跳跃和单调性,否则对齐性能会急剧下降。
3.1.2 有监督方法
有监督方法是从无监督的序列对齐技术中得到启发,并通过增强模型的监督信息来获得更好的性能,通常可以将上述无监督方法进行适当优化后直接用于模态对齐。该方法旨在不降低性能的前提下,尽量减少监督信息,即弱监督对齐。
有监督方法的对齐性能总体上优于无监督方法,但需要以标注数据为基础,而准确把握监督信息的参与程度是一项极具挑战的工作。
3.2 隐式对齐方式
构建图像模型需要大量训练数据或手工运行,因此随着深度学习研究的深入及训练数据的有限,该方法已不适用。
神经网络方法是目前解决机器翻译问题的主流方法,无论是使用编解码器模型还是通过跨模态检索都表现出较好的性能。利用神经网络模型进行模态隐式对齐,主要是在模型训练期间引入对齐机制,通常会考虑注意力机制。
参考文献
何俊,张彩庆,李小珍,等:面向深度学习的多模态融合技术研究综述
陈国伟,等:多模态情感分析综述