【五期邹昱夫】EMNLP(EMNLP'17)Tensor Fusion Network for Multimodal Sentiment Analysis

EMNLP2017.

  本文认为多模态情感分析存在两个挑战。模态间的动态变化:声音、文本、图像之间会相互作用相互影响。模态内的动态变化:对口语化的文本文件进行情感分析非常困难。
  因此,为了应对这两个挑战,作者提出了一种新的模型Tensor Fusion Network(张量融合网络,TFN),TFN能够端到端地学习模态内和模态间的动态,采用一种新的多模态融合方法(张量融合)对模态间动态进行建模,模态内动态则通过三个模态嵌入子网络进行建模。
  首先,针对口语化文本文件的难以进行情感分析的问题,作者的解决方法是在每个单词间隔学习口语单词的丰富表示,并将其用作完全连接的深度网络的输入。通过这种方式提取其中的有用信息。其次,作者在TFN模型中构建了一个张量融合层TFL,定义为使用三次笛卡尔积的向量场(图1),将zl,zv,za都扩充了一维,这样既能计算模态之间的特征相关性,又能保留单个模态的特征(图2)。换句话说:作者将音频,图像,文本作为三维空间的坐标轴,每个3-D点对应三个轴上坐标的外积。这样做的好处就是整个三维空间被分成了7个部分,3个坐标轴对应的单模态嵌入,3个坐标轴两两相交构成的双模态相互作用,1个三模态相互作用。在张量融合层之后,每个意见话语可以表示为多模态张量。最后作者将其放入完全连接的深层神经网络进行情感分类。
  本文优点是提出了一种新的端到端情感分析融合方法,该方法可以明确地表示行为之间的单模态、双模态和三模态的交互。在公开可用的CMU-MOSI数据集上的实验产生了最先进的性能。
  本文缺点是计算过于复杂。通过向量的外积计算相关性,特征维度过多,大大降低了计算效率,还提高了过拟合的风险。
图1 https://img2023.cnblogs.com/blog/2191130/202212/2191130-20221216203821917-289959133.png
图2 https://img2023.cnblogs.com/blog/2191130/202212/2191130-20221216204226055-1589710021.png

2022年12月16日


posted @ 2022-12-16 21:28  方班隐私保护小组  阅读(141)  评论(0编辑  收藏  举报