【五期邹昱夫】EMNLP（EMNLP'17）Tensor Fusion Network for Multimodal Sentiment Analysis

EMNLP2017.

本文认为多模态情感分析存在两个挑战。模态间的动态变化：声音、文本、图像之间会相互作用相互影响。模态内的动态变化：对口语化的文本文件进行情感分析非常困难。
因此，为了应对这两个挑战，作者提出了一种新的模型Tensor Fusion Network（张量融合网络，TFN），TFN能够端到端地学习模态内和模态间的动态，采用一种新的多模态融合方法（张量融合）对模态间动态进行建模，模态内动态则通过三个模态嵌入子网络进行建模。
首先，针对口语化文本文件的难以进行情感分析的问题，作者的解决方法是在每个单词间隔学习口语单词的丰富表示，并将其用作完全连接的深度网络的输入。通过这种方式提取其中的有用信息。其次，作者在TFN模型中构建了一个张量融合层TFL，定义为使用三次笛卡尔积的向量场（图1），将zl,zv,za都扩充了一维，这样既能计算模态之间的特征相关性，又能保留单个模态的特征（图2）。换句话说：作者将音频，图像，文本作为三维空间的坐标轴，每个3-D点对应三个轴上坐标的外积。这样做的好处就是整个三维空间被分成了7个部分，3个坐标轴对应的单模态嵌入，3个坐标轴两两相交构成的双模态相互作用，1个三模态相互作用。在张量融合层之后，每个意见话语可以表示为多模态张量。最后作者将其放入完全连接的深层神经网络进行情感分类。
本文优点是提出了一种新的端到端情感分析融合方法，该方法可以明确地表示行为之间的单模态、双模态和三模态的交互。在公开可用的CMU-MOSI数据集上的实验产生了最先进的性能。
本文缺点是计算过于复杂。通过向量的外积计算相关性，特征维度过多，大大降低了计算效率，还提高了过拟合的风险。
图1 https://img2023.cnblogs.com/blog/2191130/202212/2191130-20221216203821917-289959133.png
图2 https://img2023.cnblogs.com/blog/2191130/202212/2191130-20221216204226055-1589710021.png

2022年12月16日

posted @ 2022-12-16 21:28 方班隐私保护小组阅读(237) 评论(0) 收藏举报

刷新页面返回顶部

方班隐私保护小组

【五期邹昱夫】EMNLP（EMNLP'17）Tensor Fusion Network for Multimodal Sentiment Analysis

公告