video dialog 有影响力的论文详解

Multi-View Attention Networks for Visual Dialog

 

 *    切入点:问题的重点是哪个 ,需要充分理解才能抓住重点——给定问题的语义意图  determining the semantic intent of the given question and then leveraging question-relevant information from the dialog history and visual contents

这个卖点好,基于这个提出了三个module,提高了0.1%

 

 

Recursive Visual Attention in Visual Dialog

  *    切入点: 和前面比较弱,毕竟前面比较新,这个是  让模型反复查找 history ,直到有自信后去 看图片,具体方法没细看(累了ing)

 

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

  *    切入点:利用了finetune 和 bert ,换了个切入点

 

DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog

 *     切入点:之前的模型是用 问题得到最相关的 history后直接去找相关图片信息,相当于单轮的推理。而这篇论文是来回的推理,符合人类解决这类问题的直觉。

也是有 两个 module 进行两端推理,最后利用了一个多模态的attention来更好的得到答案。

 

DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

代码这个是数据没给跑不了 , 卖点——图模型

posted @ 2020-07-04 19:32  jun0wanan  阅读(347)  评论(0编辑  收藏  举报