结合可视化分析目前Visual Question Answering(VQA)系统的主要问题

https://zhuanlan.zhihu.com/p/112022790
Awesome-Text-VQA
结合可视化分析目前Visual Question Answering(VQA)系统的主要问题

讨论范围：

模型：

可视化方法：

在原图上绘制了主要的bounding box（bbox），同时将attention的权重显示为这些bbox的颜色，红色越深权重越大。Bottom-Up-Top-Down模型由于只有一个attention，直接使用这个attention的权重；BAN模型包含了多层attention，我为了简化，直接将所有attention取了均值，而不是将每一步attention都单独显示出来。

错误样例定义：

因为VQA 2.0对每个问题其实包含了多个答案，所以问题答案的ground truth（GT）并非简单的one-hot vector，官方定义参考：https://visualqa.org/evaluation.html。

因此我们的错误样本定义也不是简单的非GT，而是满足两个条件

1）和分数最高的GT答案不同

2）prediction_prob * GT_acc_prob < 0.3

第二个条件的目的主要是，即便答案答对了，如果本身分数很低，即其实模型不是很确定，也算错误。

Step 1：量化分析：

这里我们统计了所有答错的题目，ALL表示BUTD或BAN任何一个答错了。而颜色中，蓝色表示两个模型都答错的，BAN表示只有BAN答错的，橙色表示只有BUTD答错的。

Step 2：同一图片&问题，两个模型可视化样例

我们发现引入了multi-attention的BAN可以关注到更多的物体，这也可能是为什么他比BUTD好的原因，这里的baseline其实就是BUTD。

Step 3：基于我观察的500+个错误样本，归纳的常见错误类型

我看了大概500+个两模型的错误样本，总结了六种目前VQA里的常见问题

第一个是由于标注员的问题，ground truth就标错了，或者标的文不对题。
歧义性，预测的答案是标准答案的另一种表达，或者是另一个回答问题的角度，总之其实没错。
超出图片本身知识，有些问题可能超出了图片本身的表述和信息，需要结合额外的生活常识来回答，或者问了图片外的物体的信息。
计数，这个问题也是VQA的常见问题，即目前的VQA无法数数。对的，即便是最简单的几个人也不会数，这里我推荐一篇paper，就这个问题做了详细的分析，也给了一个不错的模型：https://arxiv.org/abs/1802.05766
注意力机制的问题，1）关注到了错误的物体上，这通常是由于问题需要推理，但推理错了。2）物体的bounding box没有被检测出来，由于物体不显眼或者不常见。
just wrong。什么都对了，连attention都对了，但就是答案错了。

目前的所有VQA的模型，大多只是在解决六个问题中的最后一个和部分的attention类罢了，通过更好的feature，更好的注意力/融合机制之类的。

Step 4：各类问题的比例（仅来自500+个我看的例子）