论文阅读 | Multimodal Transformer Networks for End-to-End Video-Grounded Dialogue Systems

论文地址：https://www.aclweb.org/anthology/P19-1564/

作者： Hung Le, Doyen Sahoo, Nancy Chen, Steven Hoi

机构：Singapore Management University, Institute of Inforcomm Research, Salesforce Research Asia

研究的问题：

关注的是基于视频的对话系统。当前常用的是RNN+attention+seq2seq。这里举了一个例子：

本文提出了MTN（Multimodal Transformer Networks）对视频帧中的信息进行建模，包括了视频、字幕等信息。，整合不同形式的信息。任务是在给定的视频（包含图像和语音）的基础上，根据视频内容，视频标题，和已有的对话语句，来生成最合适的回复。

研究方法：

任务定义：给定视频V，标题C，t-1轮对话，每轮都包括一对QA，当前轮的问题Q_t，目标是生成回复A_t。

模型的整体框架如下图所示。

编码器：

（1）文本编码：和原始transformer相同，token embedding + position embedding，位置编码同样使用三角函数。不同的是，这里没有使用堆叠的编码层，编码层之后只经过一个层归一化的操作。（也就是没有feed forward network）。对于query、字幕、对话历史的编码方式是相同的。

（2）视频编码：使用一个n帧的滑动窗口来提取特征，特征包括图像和声音两个部分。通过一个线性层将维度转为与文本编码一致的维度。编码的结构如下图所示。

解码器：

包括n个相同的层，每层都是4+M个子层，每个子层都包含一个 multi-head attention 机制加一个 position-wise 的feed-forward层，来处理一个特定的编码输出，包括：目标序列的偏移，对话历史，视频标题，当前的query和视频中的非文本特征。（M对应的是非文本特征，在本文是使用的是视频和音频，也就是2。4对应的就是前边四个输出。）在attention的计算中使用了层归一化和残差连接。公式表示如下：

Auto-encoder：

这一层的目的是为了进一步加强视频中的非文本特征和当前的query之间的关系。包含N个层，每个层包括1+M个子层（这里的M同样是表示非文本特征，也就是两层，1对应的是query的编码）。query经过之前的编码层后，再经过一个 Self-Attention 模块，得到 query 自身的编码表示；视频中的图像和音频信息，与 query 编码分别进入 multi-attention 模块，得到视频特征中的 query-aware 编码表示。公式表示如下：

Simulated Token-level Decoding：

为了减少训练和测试时的差异，在测试的时候做以下操作：以一定的概率在某个位置（位置在2，…,L-1中均匀产生），将目标序列剪开，将剪开后左边的序列作为目标序列。

目标函数：

模型目标函数是目标序列的损失和auto-encoder的损失之和。

实验结果：

这里base/large是作者训练的两种规模的模型，可以看到结果有一定提升。

作者还做基于图片的对话任务上进行了实验，数据集是COCO。结果如下：

同样取得了很好的效果。

评价：

提供了一种组合文本特征和非文本特征的方式，从结果来看取得了比较好的效果。整体模型是基于transformer的，加入了一个auto-encoder来结合目标（回答query）进一步强化attention。文章的重点是介绍文本信息和非文本信息的结合方式，对于各自的信息提取（比如word embedding和feature extractor）没有做讨论，可能是一个改进的方向。

posted @ 2020-04-21 23:56 bernieloveslife 阅读(1086) 评论(0) 编辑收藏举报

刷新页面返回顶部

bernieloveslife

论文阅读 | Multimodal Transformer Networks for End-to-End Video-Grounded Dialogue Systems

公告