知识驱动的视觉理解论文一览

Visual Relationship Detection with Language Priors 2016

visual relationship detection领域的开山之作，检测和定位图上的多对object，然后分别对每一对object的交互关系（predicate）进行分类。

Scene Graph Generation by Iterative Message Passing 2017

利用场景图对对象和关系进行建模。

Visual Genome ：Connecting Language and Vision Using Crowdsourced Dense Image Annotations 2017

PaStaNet：Toward Human Activity Knowledge Engine 2020

利用part级别的动作状态（part states）进行行为理解，

A Hierarchical Approach for Generating Descriptive Image Paragraphs 2017

这篇文章提出了一种结构化模型去生成图像段落描述。文章首先利用区域生成网络 (RegionProposal Network)进行区域检测，并将检测到的区域投影到卷积特征图中，通过插值并通过全连接层和最大池化生成一个区域特征向量，该向量作为句子RNN和词RNN两层层次循环网络（Hierarchical Recurrent Networks）的输入并生成对图像的描述段落。

Deep Reasoning with Knowledge Graph for Social Relationship Understanding 2018

利用了一个图推理模型（Graph Reasoning Model，GRM），由该模型结合门控图神经网络（Gated Graph Neural Network，GGNN）对社会关系进行处理。对社会关系的推理可以作为其他多种任务的辅助，如多目标追踪，人类轨迹预测，群体行为分析。GRM首先根据图上人物区域的特征来初始化关系节点，然后用预先训练的Faster-RCNN探测器搜索图像中的语义对象，并提取其特征，初始化相应的对象节点；之后利用门控图神经网络GGNN负责计算节点特征，并结合图注意力机制帮助理解社会关系。

Detecting and Recognizing Human-Object Interactions 2018

检测人和物体的交互（interaction）定位和人交互的物体的位置并通过人和物来预测后面的动作

Object Detection Meets Knowledge Graphs 2017

引入外部知识库来进行辅助目标检测。

The More You Know: Using Knowledge Graphs for Image Classification 2016

应用知识图谱形式的结构化先验知识到图像分类中，表明利用结构化先验知识可以提高图像分类的性能。

Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks 2020

用于识别训练集没有的，对操作物体进行替换的动作

I Know the Relationships: Zero-Shot Action Recognition via Two-Stream Graph Convolutional Networks and Knowledge Graphs 2019

Action Genome: Spatio-temporal Scene Graphs 2020

Rethinking Knowledge Graph Propagation for Zero-Shot Learning 2019

Videos as space-time region graphs.

Learning to Compare: Relation Network for Few-Shot Learning 2018