video dialog 有影响力的论文详解
Multi-View Attention Networks for Visual Dialog
* 切入点:问题的重点是哪个 ,需要充分理解才能抓住重点——给定问题的语义意图 determining the semantic intent of the given question and then leveraging question-relevant information from the dialog history and visual contents
这个卖点好,基于这个提出了三个module,提高了0.1%
Recursive Visual Attention in Visual Dialog
* 切入点: 和前面比较弱,毕竟前面比较新,这个是 让模型反复查找 history ,直到有自信后去 看图片,具体方法没细看(累了ing)
Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline
* 切入点:利用了finetune 和 bert ,换了个切入点
DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog
* 切入点:之前的模型是用 问题得到最相关的 history后直接去找相关图片信息,相当于单轮的推理。而这篇论文是来回的推理,符合人类解决这类问题的直觉。
也是有 两个 module 进行两端推理,最后利用了一个多模态的attention来更好的得到答案。
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue
代码这个是数据没给跑不了 , 卖点——图模型