Visual Instruction Tuning论文阅读笔记

Motivation & Abs

Motivation：之前基于LLM的通用助手仅能处理文本。

数据：使用纯语言的GPT4生成多模态语言-图像指令数据。

模型：基于生成数据端到端训练的模型LLaVA，用于通用视觉语言理解。

指标：两个benchmark。

GPT-assisted Visual Instruction Data Generation

现有的多模态指令数据集往往很小，原因在于构建这样的数据集相当耗时，同时缺少较好的定义。因此作者考虑使用C ha t GPT/GPT4来构建相应的数据（基于现有的图像文本对）。

对于一张图像\(X_v\)以及与之关联的caption \(X_c\)，我们可以很自然地构建一系列的问题\(X_q\)，目的是指导助手描述图像内容。作者提示GPT-4以生成一系列的问题，因此一个简单的扩充图像文本对为指令跟随的方式是：

截屏2024-06-07 15.14.21

但这种简单的方式会导致指令以及回答的多样性 / 推理深度的缺失。为解决这个问题，作者使用ChatGPT / GPT4（仅利用其语言能力）作为一个强的教师模型生成包含视觉内容的指令跟随数据。为了将图像编码为视觉特征送入text-only GPT，作者使用了两种不同形式的表示：（1）Captions以及（2）Bounding boxes，这种表示可以使图像被编码为LLM能够识别的序列。作者使用了COCO的图像，同时生成了三种指令跟随数据：Conversation，Detailed description以及Complex reasonging。

截屏2024-06-07 15.32.04