多模态数据融合算法研究(Research on Multimodal Data Fusion Methods)赵亮

摘要

1.1、研究背景与意义

多模态数据:同一个对象,描述的方式不同(视角或领域不同),把描述这些数据的每一个领域或者视角叫做一个模态(Modality)

  eg:在视频分析中,视频可以分解为音频、图像、字幕等多模态信息。每个图片又可以表示成强度或者灰度、纹理等不同模态特征。

模态间的关联性:每个模态能为其余模态提供一定的信息,即模态之间存在一定的关联性。对不同模态数据进行同等处理或对所有模态特征进行简单的连接整合不能保证挖掘任务的有效性。

  多模态学习的主要目的:通过不同特征集的互补融合,联合学习各模态数据的潜在共享信息,进而提升数据任务的有效性。

现有的多模态数据融合分析方法:

  1、基于阶段的融合算法:在数据挖掘任务的不同阶段使用不同的模态数据完成相应的融合分析。(可做先验算法)

  特点:不需要模态数据间的一致性(即不同模态数据间处于松耦合)

  eg:1、区域图划分与区域图构建(模态:路网和出租车轨迹)。2、好友推荐系统(模态:空间轨迹数据和空间点静态分类数据)

    

  2、基于特征的融合算法:从不同的模态数据原始特征中学习到新的融合特征,然后利用学习到的新的融合特征完成分类、预测等任务。(将每个特征当做实数或分类值,而不关注每个特征的具体意义)

    2.1、最早的特征融合算法,直接将所有模态特征进行串联融合(多模态数据的属性高维性问题来源于此)。

    缺点:1、不同模态的表示、分布和密度可能不同,简单的属性连接会忽略模态特有的统计属性和模态间的关系。2、产生数据冗余与依赖

    解决方法:

      传统手工特征:在目标函数中添加稀疏规则化因子控制融合特征的冗余,在模型的训练中将冗余特征的权重近似分配为零。

      深度神经网络:学习得到数据的多层表示与抽象,进而将数据转换成深度网络的高层抽象特征
        

 

 

  3、基于语义的融合算法:理解每个模态的数据含义及不同模态特征之间的关系,在数据融合过程中利用人类思考问题的方式抽象不同模态的语义含义完成跨模态数据融合。
  现有的基于语义的融合算法大致分为:

  3.1、共训练方法:通过轮流训练使得两个模态数据的协同度最大。
    三个需求(假设):1、每个模态有充分的数据;2、基于共生特征两个模态的目标函数都能以较高概率预测到相同的数据类标签;3、给定类标签,模态间条件独立。

  3.2、多核学习方法:

    利用预定义的一组核函数学习一个基于核函数的优化的线性或非线性组合。
    

  3.3、子空间学习方法:

    假设所以模态均可以投影到同一语义共享子空间,在子空间内可以完成聚类、分类等数据挖掘任务。(共享子空间的特征维度小于任何一个模态数据维度(维度灾难))

    

    1、无监督学习:

      2.1、利用典型相关分析(CAA)最大化两个模态之间的相关性,学习得到最大相关子空间并输出每个模态对应的投影矩阵

      2.2、基于核CCA(KCCA)的多模态共享子空间学习算法(非线性改进算法)。该算法通过非线性转化将数据点映射到高维数据空间,然后在利用线性CCA完成子空间的学习

    2、基于矩阵分解的算法

    3、基于高斯过程、谱嵌入和无向图模型

  3.4、概率依赖方法:

    概率模型。能够弥补不同模态数据的语义偏差

  3.5、迁移学习方法: 

    迁移学习能够通过不同域(不同特征空间、特征分布)的有效融合,完成数据知识的跨域迁移分析。

提出来现阶段多模态融合面临的4个问题,然后叙述对于这4个问题,目前的解决方法都有哪些。接着呈现这些解决方案存在的弊端,针对这些弊端,作者提出了自己的算法:

一、多模态数据的模态不完整性问题

  1、面临的问题

    多模态数据的模态不完整性问题

  2、目前的解决方法

    2.1、最简单的办法是将所有不完整多模态数据实例删除。

    2.2、通过缺失值填充对不完整模态实例进行预处理。eg:Trivede和Shao提出:通过共享实例构建不完整模态数据的核矩阵,

      然后基于核方法对多模态数据进行融合聚类分析,这类方法能够得到有效的分析结果。

    2.3、PVC(部分多视图聚类算法)。

    2.4、MIC(不完整多视图聚类算法)。

    2.5:无监督的多模态数据聚类算法。

    2.6:基于联合特征选择和子空间学习的不完整多视图聚类算法。

    2.7:基于深度神经网络(DNN),主要分为两类

     2.7.1:基于深度神经网络本身提取多模态数据的共享特征,并利用共享特征对个模态数据进行重建(eg:SplitAE)

     2.7.1:利用多模态特征融合模型耦合各模态深度学习网络,通过联合优化得到多模态数据的深度语义共享子空间(eg:DCCA、DCCAE、CorrAE、DisAE)

    2.8:深度典型相关分析。该模型能够通过深度网络学习得到每个模态特征空间到共享特征空间的非线性匹配网络,进而得到多个模态的共享特征表示

  3、目前解决方法存在的弊端

    2.1:不完整模态数据也包含数据挖掘有用的信息。

    2.2:这种方法只适用于基于核的多模态学习。

    2.3:

    2.4:2.3和2.4两种算法均没有考虑数据集中不同模态数据的结构相似性(eg:在一个模态中两个数据实例相似性较大时,那么在其他模态中相似性应该保持一致)

    2.5:

    2.6:只采用线性和非线性转换弥补多模态数据之间的语义偏差,当模态分布或者特征差异较大时,简单的数据转换难以保证融合结果的有效性。

    2.7:这些模型主要解决两个模态数据的深度融合问题,并且很难扩展到多模态的融合分析

    2.8:较好

  4、小结

    多模态深度学习模型能够比浅层学习模型得到更加有效的跨模态数据融合结果。

  5、作者提出的解决方法

    提出基于深度语义匹配的不完整多模态数据融合算法,利用多模态高层语义的相关,设计融合模态私有深度网络和模态共享特征的统一深度学习模型。此外,基于模态的空间几何特性,设计模态局部不变图规则化因子,耦合多模态深度共享特征和原始模态特征。利用坐标下降、反向传播等优化算法对整个模型进行优化更新,得到多模态数据的高层语义融合特征。

二、多模态数据的处理实时性问题。

  1、面临的问题

    多模态数据的处理实时性问题

  2、目前的解决方法

    多模态共聚类:

    2.1、基于潜在子空间学习

      2.1.1、基于矩阵分解的多模态潜在子空间学习

      2.1.2、基于非负矩阵分解的多模态潜在共享特征学习

      2.1.3、基于谱嵌入、无向图模型、高斯过程的多模态共享子空间学习算法

    2.2、共训练算法

      2.2.1、半监督共训练方法
      2.2.2、多核学习
      2.2.3、低秩和稀疏学习

   增量和在线多模态聚类融合算法
       2.3、基于最大值最小优化的增量模糊聚类算法(IminimaxFCM)
    2.4、无监督多视图特征选择算法

    2.5、自组织神经网络的异构融合自适应谐振理论
    2.6、多模态异构融合模型(完成任意模态特征的增量共聚类)

  3、目前解决方法存在的弊端

    2.1和2.2这些算法主要面向多模态静态数据,当数据量大或数据动态增长变化时算法的开销巨大。
    2.3 - 2.6 在增量共聚类融合过程中需要预定义聚类结果簇数目,或者引入额外的参数使得算法性能易受影响

  4、作者提出的解决方法

    提出一种无参数多模态数据增量共聚类融合算法。定义了新的多模态数据相似性度量标准,并设计了三种增量聚类策略,即簇创建、簇合并和聚类划分,对多模态数据进行增量聚类融合。同时设计一种自适应的模态权重机制,在共聚类融合过程中对模态权重进行动态调整。

三、多模态数据的模态不均衡性问题

  1、面临的问题

    多模态数据的模态不均衡性问题

  2、目前的解决方法(迁移学习的主要目的是通过建立源和相关目标域之间的融合纽带,利用充分的源域知识辅助目标域

    不充分数据的学习挖掘,迁移学习需要跨域数据迁移融合

    现有迁移学习算法大致可分为两类:

    2.1、同构迀移算法

      2.1.1、基于稀疏编码的自学习模型,
      2.1.2、迁移主成分分析(TCA)
    2.2、异构迁移学习
      2.2.1、基于语义特征的迁移融合

    2.3、深度神经网络
      2.3.1、利用栈式降噪自动编码机(SDA)
      2.3.2、边际SDA(mSDA)
      2.3.3、基于深度学习的同构迁移学习模型
      2.3.4、基于深度自动编码机的有监督特征表示学习算法完成同构数据的迁移学习
      2.3.5、基于文本-图片共生数据对通过深度特征耦合将文本语义迁移到图片特征空间,支撑图片的分类预测
      2.3.6、基于多层参数弱共享深度迁移学习网络进行文本到图片的跨域信息转化
      2.3.7、深度迁移网络(GDTN)进行异构域之间的知识迁移分析

  3、目前解决方法存在的弊端

    2.1和2.2它们只采用线性或非线性转换弥补源和目标域之间的语义偏差,我们称之为浅层迁移学习。当数据域间特征分布的分歧或偏差较大时,浅层迁移学习将变得不够鲁棒,甚至无效。

    2.3深度学习的迁移模型的主要目标是通过神经网络的多层非线性转换学习到不同域数据的高层语义共享空间,在共享空间中不同域的语义偏差将被有效减小。然而大多现有的深度迁移学习方法只是在各域学习到的域深度特征的基础上建立不同域的语义相关,没有将深度神经网络的学习能力充分融入到跨域知识融合模型构建过程中。当异构域数据间的语义偏差较大时,共享特征精确性难以保证。另外,一些现有的深度迁移学习方法通过设定不同域深度网络参数或特征共享,完成异构数据域的语义融合,在各域深度网络的训练过程中强制深度网络结构或网络输出特征相同,这样会忽略不同数据域的私有特征,当异构域的偏差较大时,私有特征的强制匹配会严重影响学习到的共享特征的精度。

  4、作者提出的解决方法

    提出基于多层语义匹配的异构模态数据迁移融合算法。耦合模态深度网络与模态相关分析模型,设计多层语义匹配统一深度网络架构。在每一层对多模态数据进行特征相关融合,并利用顶层模态输出特征对模态网络进行整体相关。定义新的深度融合目标函数,优化学习异构模态私有深度匹配网络和模态高层语义共享空间,完成源域模态知识到目标域任务的迁移融合。

四、多模态数据的属性高维性问题

  1、面临的问题()

    多模态数据的属性高维性问题。1、最直接的多模态数据分析方法将各模态特征向量连接到一起形成数据的新的特征表示,并通过有效的机器学习与数据挖掘方法完成新特征向量的挖掘分析。然而,这种方法忽略了数据不同模态的不同统计特性,同时简单的特征连接容易引起数据处理的维度灾难问题。2、无标签多模态数据实例广泛存在,无标签多模态学习(也叫多模态聚类分析)具有重要意义,多模态聚类能够通过无监督多数据特征集表示之间的互补信息学习,有效地将数据特征实例划分到聚类结果簇中

  2、目前的解决方法

   多模态聚类方法大致可分为四类:
    1、直接将多个数据特征集融入到聚类过程中,并通过自定义的损失函数优化整个聚类过程
    2、后融合方法
    3、首先学习多特征集之间的统一相似矩阵表示,然后利用此相似度矩阵完成最后的聚类分析
    4、基于子空间学习的多模态聚类

  3、目前解决方法存在的弊端

    现有多模态子空间相关特征学习算法己经取得了良好的效果,但在相关特征的学习过程中只是将原始多模态数据集进行投影或转换,没有考虑数据中包含的非相关(负相关)特征

  4、作者提出的解决方法

     提出一种无监督多模态数据非负相关特征共享融合算法。设计模态私有(不相关或负相关)特征和跨模态共享(相关)特征共学习模型,利用共享特征的耦合建立各模态联合优化目标函数,并利用模态不变图规则化和投影矩阵稀疏化辅助模型优化过程。最后通过迭代的模态间相关和不相关特征的共学习得到低维子空间中鲁棒的跨模态数据融合特征。

6  结论与展望

6.1  本文工作总结

(1)基于深度语义匹配的不完整多模态数据融合算法
(2)无参数多模态数据增量共聚类融合算法
(3)基于多层语义匹配的异构模态数据迁移融合算法
(4)无监督多模态数据非负相关特征融合算法

6.2  创新点总结

1、针对现有不完整多模态数据融合算法难以有效学习跨模态数据共享语义的问题,提出基于深度语义匹配的不完整多模态数据融合方法。利用深度学习网络的高层语义抽象特征对不完整多模态数据进行深度相关融合,降低模态共享特征的语义偏差,提升融合结果的准确性。

2、针对现有多模态数据增量聚类融合算法精度易受参数选择影响的问题,提出一种无参数多模态数据增量共聚类融合算法。通过簇结构和模态权重的动态更新调整,对多模态数据进行无参数增量融合划分,保持新增多模态数据聚类融合精度的同时,提升聚类融合算法的效率和扩展能力。

3、针对现有异构模态数据迁移融合算法难以有效弥补模态间较大语义偏差的问题,提出基于多层语义匹配的异构模态数据迁移融合算法。通过跨模态特征的逐层相关匹配和顶层输出特征的最大相关对模态融合网络进行整体优化调整,有效弥补异构模态数据间的语义偏差,提升迁移融合结果的精度。

4、针对现有多模态低维特征共享融合算法难以有效排除模态私有信息的影响的问题,提出一种无监督多模态数据非负相关特征融合算法。通过模态私有特征的分离和多模态共享特征的耦合学习,提升低维共享特征融合表示的准确性,同时完成高维模态数据的属性降维。

6.3  未来工作与期望

需要进一步研究和探索的点:

(1)本文第二章构建的深度语义匹配模型主要针对模态的不完整性对多模态数据进行融合分析。进一步探索多模态深度语义匹配模型,有效学习包含不精确数据、不正确数据和冗余数据的数据融合特征,是多模态低质数据未来研究的一个主要内容。
(2)在本文第三章的多模态增量共聚类融合算法中,针对大数据的海量性与动态演化特性,利用所有模态的属性特征进行模态加权融合。然而在大数据的具体分析中,数据的高维性对算法的实时性影响也很大。因此,进一步研究融合特征选择和属性降维的多模态增量融合算法是未来研究的又一个重要内容。
(3)在本文第四章的深度异构迁移融合算法中,利用跨域的共生数据辅助训练模态间多层语义深度匹配子空间,完成异构模态的知识迁移融合。事实上,共生数据的质量和数量对迁移模型的性能影响很大。针对这个问题,在未来的研宄中主要关注如何利用统计学和数学方法对共生数据进行可用性验证,并探索如何在更通用的辅助数据集上构建深度异构迁移融合模型。
(4)面对高维的多模态数据,本文第五章提出一种无监督多模态数据非负相关特征融合算法,将跨模态相关特征融合到低维语义共享子空间。在实际应用中,多模态数据集中通常存在一定的有监督或弱监督信息,例如部分有标签数据和分类结果,这些真实语义能够辅助低维共享空间的学习。因此,进一步研究基于有监督和半监督信息的多模态非负相关特征融合模型,是以后工作的又一个主要内容。

关键词解释:

  1. 不完整性:数据缺失
  2. 增量学习、在线学习:多模态的数据快速产生,并且需要对其进行实时的分析处理
  3. 模态的不均衡性:某些模态数据实例数目较多,某些模态数据实例数目较少,那么需要利用包含较多实例的模态数据辅助较少实例的模态数据分析学习。
  4. 属性的高维性:例如图片和文本等特征描述均表示成高维向量。
  5. 增量学习:指一个学习系统能不断地从新样本中学习新的知识,并能保存大部分以前已经学习到的知识

思考:

1、除了目前已被本文作者提出的问题(4个),多模态数据融合中还存在其他问题吗?(找问题)

2、对于提出的解决方案,有瑕疵,或者说还能改进吗?(改进)

3、自己是否能想出多模态数据融合的算法(创新)

处理实时性时,把实时性和聚类联想在一起。可以考虑不是聚类的情况

 

 

 

ending......

 

posted @ 2019-10-17 16:55  小吴的日常  阅读(29998)  评论(5编辑  收藏  举报