video dialog 有影响力的论文详解

Multi-View Attention Networks for Visual Dialog

* 切入点：问题的重点是哪个，需要充分理解才能抓住重点——给定问题的语义意图 determining the semantic intent of the given question and then leveraging question-relevant information from the dialog history and visual contents

这个卖点好，基于这个提出了三个module，提高了0.1%

Recursive Visual Attention in Visual Dialog

* 切入点：和前面比较弱，毕竟前面比较新，这个是让模型反复查找 history ，直到有自信后去看图片，具体方法没细看（累了ing）

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

* 切入点：利用了finetune 和 bert ，换了个切入点

DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog

* 切入点：之前的模型是用问题得到最相关的 history后直接去找相关图片信息，相当于单轮的推理。而这篇论文是来回的推理，符合人类解决这类问题的直觉。

也是有两个 module 进行两端推理，最后利用了一个多模态的attention来更好的得到答案。

DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

代码这个是数据没给跑不了，卖点——图模型

posted @ 2020-07-04 19:32 jun0wanan 阅读(374) 评论(0) 收藏举报

刷新页面返回顶部

hello , 访问者

video dialog 有影响力的论文详解

DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog

公告