GLaMM : Pixel Grounding Large Multimodal Model

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract

　　大型多模态模型(Large Multimodal Model, LMM)将大语言模型扩展到视觉领域。最初的LMM使用整体图像和文本提示词来生成无定位的文本响应。最近，区域级LMM已被用于生成视觉定位响应。然而，它们仅限于一次仅引用单个目标类别，要求用户指定区域，或者不能提供密集的像素目标定位。在这项工作中，我们提出了Grounding LMM (GLaMM)，这是第一个可以生成与相应的目标分割掩码无缝交织的自然语言响应的模型。GLaMM不仅将对话中出现的目标作为定位，而且足够灵活，可以接受文本和可选的视觉提示词(感兴趣的区域)作为输入。这使得用户能够在文本和视觉领域中以不同的粒度级别与模型进行交互。由于缺乏新的视觉定位对话生成(Grounded Conversation Generation, GCG)设置的标准基准，我们引入了一个全面的评估协议，用于我们策划的定位对话。我们提出的GCG任务需要大规模的自然场景中的密集概念。为此，我们使用我们提出的自动注释流水线提出了一个密集注释的定位任何数据集(Grounding-anything Dataset, GranD)，该数据集包括7.5M个独特的概念，这些概念定位总共810M个可用的分割掩码区域。除了GCG，GLaMM还可以有效地执行一些下游任务，例如引用表达分割、图像和区域级说明文字以及视觉-语言对话。

图1. GLaMM的定位会话生成。我们的多模态会话模型可以提供基于输入图像中像素级别的自然语言响应。输出背景中描述了不同级别的粒度，例如，things(建筑物、树)、stuff(草、天空、路面)和目标部分(屋顶作为建筑物的一个子部分)，以及目标属性(白色房屋、红色屋顶、修剪整齐的草坪)和目标关系(延伸到路面的草、建筑物上方的天空)。现有的LMM，开源(例如LLaVa、miniGPT4、Shikra、Kosmos-2)和闭源(例如GPT4-V、Bard)，不提供像素级的定位会话能力。

1. Introduction

　　在生成式AI浪潮的推动下，大型多模态模型(LMM)已成为一项关键的进步，弥合了视觉和语言任务之间的差距[2]。像[6, 8, 22, 29, 52, 61]这样的初步努力证明了有效的基于输入图像的文本响应。尽管这些模型是复杂的，他们仍然无法利用自己的响应定位视觉上下文。这种定位对于高级应用程序，如详细的视觉理解、交互式具身智能体和本地化内容操纵。最近的已经开始努力通过启用用于处理通过指定的用户定义区域的模型边界框[5, 31, 35, 36, 57]。

　　最近的一些工作已经探索了定位文本响应生成[5, 21, 35, 59]，但没有提供详细的像素级定位。与此平行，在参考分割文献中也做出了努力，以在自然图像中进行文本描述[21]。然而，它们仅限于以单个目标为定位，无法进行自然且连贯的对话，从而限制了它们在需要深入理解视觉和文本内容的互动任务中的实际适用性。为了解决现有工作的这些局限性，我们引入了Grounding LMM (GLaMM)，它通过端到端的训练方法同时提供深入的区域理解、像素级定位和会话能力(见图1和表1)。

　　为了解决缺乏视觉定位对话的基准问题，我们引入了定位对话生成(GCG)这一新颖任务。GCG任务旨在产生与目标分割掩码交织的自然语言响应。这项具有挑战性的任务统一了计算机视觉中的几个现有任务，这些任务通常是孤立处理的，即引用表达分割、图像和区域级说明文字、短语基础和视觉-语言对话。因此，我们的统一模型和所提出的预训练数据集可以有效地迁移到几个下游任务(涉及表达分割、区域级说明文字、图像说明文字和会话风格QA)。我们将GLaMM作为第一个专门为这项具有挑战性的任务设计的模型。与之前的工作不同，GLaMM可以同时使用文本和视觉提示词，并可以生成视觉定位输出，从而提供多功能的用户体验。

　　详细的区域级理解需要为图像区域收集大规模注释的费力过程。我们提出了一个自动流水线来注释大规模的定位一切数据集(GranD)，以减轻手动标记的工作量。利用具有专用验证步骤的自动化流水线，GranD包括7.5M个独特概念，锚定在810M个区域，每个区域都有一个分割掩码。使用最先进的视觉和语言模型，数据集通过提高注释质量的多级层次方案对SAM [18]图像进行注释。凭借1100万张图片、8400万个参考表达和3300万个定位说明文字，GranD在综合性方面树立了新的标杆。除了为GCG自动生成的数据集外，我们还提供了第一个高质量的定位对话数据集，该数据集是通过使用GPT-4 [34]上下文学习对GCG的现有手动注释数据集[16, 37, 49]进行修改而获得的。我们将高质量数据集称为GranD_f，表示其适用于微调。

　　我们的工作有三个主要贡献：

我们提出了GLaMM，这是第一个能够生成与目标分割掩码无缝集成的自然语言响应的模型。与现有模型不同，GLaMM适应文本和视觉提示词，促进增强的多模态用户交互。
认识到缺乏视觉定位对话的标准化基准，我们提出了新的定位对话生成(GCG)任务。我们还引入了一个综合评估协议来衡量GCG模型的功效，该协议统一了多个孤立的任务，填补了文献中的一个重大空白。
为了便于模型训练和评估，我们创建了定位一切数据集(GranD)，这是一个大规模的密集注释数据集。它使用自动注释流水线和验证标准开发，涵盖了810M个区域的7.5M个独特概念。此外，我们提出了GranD_f，这是一个明确设计用于GCG任务微调的高质量数据集，通过重新利用现有的开源数据集。

表1. 最近大型多模态模型(LMM)的比较，强调其区域级理解能力。Input表示可以处理用户通过边界框定义的区域的模型，Multi-Region表示可以处理多个此类区域的模型。Output表示能够提供定位响应的模型。虽然一些方法使用外部视觉模块进行区域理解，但其他方法仅依赖于LMM，这可能导致不精确的定位。然而，一些集成了专门的视觉模块和LMM，如Region Enc./Dec.所示。End-End Model的区别将利用LMM进行区域理解的模型与使用外部模块的模型区分开。Pixel-wise Grounding突出显示可以使用分割掩码进行响应的模型，Multi-turn Conversation表示可以与用户进行交互式对话的模型。其中，我们提出的GLaMM通过提供全面的区域理解、响应的像素定位、对话能力和端到端训练方法而脱颖而出。

2. Related Work

　　LMM为各种任务提供了一个通用的界面，包括语言和视觉。BLIP-2 [24]、LLaVA [29]、InstructBLIP [6]和MiniGPT-4 [61]等著名模型首先进行图像-文本特征对齐，然后进行指令调整。其他代表工作包括Otter [22]、mPLUG-Owl [52]、LLaMa-Adapter [56]、Video-ChatGPT [32]、InternGPT [31]。然而，这些方法缺乏针对具体区域的理解。

　　最近的工作，如Kosmos-2 [35]、Shikra [5]、GPT4RoI [57]、VisionLLM [44]、Ferret [53]和All-Seeing [45]，旨在允许区域特定的对话。一些方法[5, 35, 45, 53]使用图像数据输入位置桶和边界框，用于区域级理解，仅依靠LLM来解释这些区域。GPT4RoI通过使用空间框和RoI对齐特征进行区域-文本对的输入和训练来推进这一点。BuboGPT [59]利用现成的定位模型[30]，并将定位与语言响应相匹配。相反，LISA [21]利用视觉语言模型和SAM [18]解码器的嵌入来生成输出分割掩码。然而，LISA无法理解特定的图像区域或处理多个实例。

　　为了对LMM进行分类，可以将方法划分为四个不同的类别(见表1——通过虚线分开)。第一个包括在文本响应方面有效，但缺乏区域特定能力的模型[6, 8, 22, 29, 51, 52, 61]。相比之下，对于处理区域输入或提供视觉定位的模型，存在三个更多的类别，其中第一类包含外部视觉模块[31, 59]，而第二类完全依赖关于区域理解的LMM [5, 35, 36, 44]。最后一类将专门的视觉模块与LMM结合，经过端到端训练以全面理解区域[21, 45, 57]。我们的方法属于最后一类，它显式提供了像素级定位，以及多回合对话和对输入图像与特定区域进行操作的灵活性。此外，我们提供了大规模的基于实例级别的视觉定位理解数据集，该数据集允许将GLaMM推广到多个视觉-语言任务。

3. Method

　　现有的大型多模态模型(LMM)要么生成未定位的文本，要么受到限制，如单目标定位、用户指定的区域输入或缺乏密集像素级目标定位(见表1)。我们的Grounding LMM (GLaMM)旨在通过生成与目标分割掩码无缝集成的自然语言响应来克服这些限制。这使得可以进行直观的人机对话。

图2. GLaMM的架构。该图展示了我们的模型架构，展示了其提供场景级理解、区域级解释和像素级定位的能力。顶部：GLaMM的核心组件，包括全局图像编码器、区域编码器、LLM、定位图像编码器和像素解码器，都是为不同粒度的视觉-语言任务量身定制的。视觉到语言(V-L)投影层有效地将图像特征映射到语言域中，像素解码器利用语言到提示词(L-P)投影层，将与分割相关的文本嵌入转换到解码器空间中。GLaMM的一个主要功能是它能够执行我们新引入的定位会话生成(GCG)任务。这突出了模型将特定短语锚定到图像中相应分割掩码的能力。底部：GLaMM的多种下游应用，包括引用表达分割、区域级说明文字、图像级说明文字和短语定位。

3.1. GLaMM Architecture

　　GLaMM由五个核心组件组成：i) 全局图像编码器，ii) 区域编码器，iii) LLM，iv) 定位图像编码器，以及v) 像素解码器。这些组件经过一致设计，可以处理文本和可选的视觉提示词(图像级别和区域)，允许在多个粒度级别进行交互，并生成定位文本响应(见图2)。如下面所解释的，这些模块共同保证场景级、区域级和像素级定位。训练细节详见附录A.2。

场景级理解：为了实现对场景的整体理解，我们使用ViT-H/14 CLIP [38]作为我们的全局图像编码器()，并结合基于Vicuna的LLM ()和视觉到语言(V-L)投影层(f)。具体地，给定图像x_img和文本指令x_t，首先将图像编码为特征向量，并投影到语言空间。然后，LLM集成投影图像特征和文本指令以生成输出y_t：

这将图像特征映射到语言空间，使GLaMM能够提供全面的场景理解，通过特定的提示词实现，如"The <image> provides an overview of the image. Could you please give me a detailed description of the image?" <image> token被CLIP全局图像编码器的256个token取代。

区域级理解：由于现有模型存在只能处理图像级视觉输入的缺点，与最近的工作[57]一致，区域编码器()扩展了模型的解释能力并与图像中的用户指定区域进行交互。此组件从四个选定的CLIP全局图像编码器层构建层次特征棱锥体，然后通过RoIAlign [10]生成14x14的特征图。将这些特征组合在一起可以产生一个统一的兴趣区域(RoI)表征。为了促进在GLaMM中针对区域的响应，我们使用一个专用token <bbox>来扩充现有的词汇表。这被集成到提示词中，比如"The <image> provides an overview of the image. Can you provide a detailed description of the region <bbox>?"。此处<bbox> token被替换成提取的RoI特征。

为了区域级理解，除了全局图像特征I_x，我们还将用户指定的区域 r 作为输入，写作，然后通过与场景级理解中使用的相同V-L投影层 f 投影到语言空间。我们通过用相应的区域特征替换<bbox> token来扩充文本指令x_t，以获得。LLM然后生成输出y_t，

像素级定位：GLaMM利用定位图像编码器(表示为)和像素解码器(表示为)，促进了细粒度的像素级目标定位，使其能够在视觉上定位其响应。我们用预训练的SAM编码器[18]实例化，并基于类似SAM解码器的架构设计。为了激活像素级定位，我们模型的词汇表使用专用token <SEG>进行扩充。提示词，如"Please segment the 'man in red' in the given image," 触发模型生成带有相应<SEG> token的响应。一个语言到提示词(L-P)投影层(g)将对应于<SEG> token的最后一层嵌入(l_seg)转换到解码器的特征空间。随后，产生二值分割掩码M，

使用端到端的训练方法，GLaMM在区域理解、像素级定位和会话能力方面表现出色。然而，由于缺乏生成视觉定位详细对话的新设置的标准基准，我们引入了一个新任务，即视觉定位对话生成(GCG)，以及一个全面的评估协议，如下所述。

图3. GLaMM在定位会话生成(GCG)上的定性结果。给定用户查询，LMM使用像素级掩码生成文本响应、定位目标、目标部分、属性和短语，并显示其详细理解。

3.2. Grounded Conversation Generation (GCG)

GCG任务的目标是构建图像级说明文字，其中特定短语直接绑定到图像中相应的分割掩码。例如，如图3(左)所示，“<A man> and <a boy> sit on <a bench> next to <an old white car>”，展示了每个括号内短语(在图像中突出显示)如何固定到一个独特的图像分割掩码上。这创建了一个注释密集的说明文字，将文本描述与视觉区域对齐，丰富了图像的上下文解释。

GCG输出表征：在这个任务中查询模型的示例提示词是：“Could you please give me a detailed description of the image? Please respond with interleaved segmentation masks for the corresponding parts of the answers.” 该模型生成了一个详细的说明文字和交错的分割掩码，采用“A man<SEG> and a boy<SEG> sit on a bench<SEG> next to an old white car<SEG>.”的格式。我们使用特殊的token，即、和<SEG>来分别描绘每个短语的开始和结束以及相应的区域掩码。

　　我们的GranD数据集是使用阶段性注释流水线精心构建的，捕获从细粒度细节到高级上下文的注释。这使得能够自动生成非常适合GCG任务的密集注释说明文字，从而显著促进GLaMM对此任务的训练。我们的模型在GCG任务上的一些定性结果如图3所示。

评估标准：我们为GCG引入了一个基准套件，其中包括2.5K幅图像的验证集和5K幅图像的测试集。评估了四个关键方面：i) 生成的密集说明文字质量，ii) 掩码到短语的对应精度，iii) 生成的掩码质量，以及iv) 区域特定的定位能力。指标包括说明文字的METEOR和CIDEr，定位的类不可知掩码AP，分割的掩码IoU，以及区域特定定位的掩码召回(详细信息请参阅附录A.1)。

　　在描述了GLaMM的架构和GCG任务的复杂性后，必须解决区域级理解所需的大规模注释数据的稀缺性问题。接下来，我们将重点设计一个新的密集注释的数据集，以优化模型的性能并克服这种数据限制。

图4. 定位一切数据集(GranD)的自动注释流水线。这条流水线由四个级别组成，在产生GranD在8.1亿个区域的750万个独特概念方面发挥着关键作用。Level-1详细说明目标和属性，Level-2包括简短的说明文字和关系标记，Level-3构建场景图，分层组织早期级别的信息，以促进定位密集说明文字的LLM，Level-4提供额外的历史和社会背景，以获得更丰富的视觉理解。

4. Data Annotation Pipeline

　　我们介绍了我们的自动注释流水线，用于创建定位一切数据集(GranD)。GranD是一个全面且多用途的图像-文本数据集，提供从细粒度到高级细节的一系列上下文信息。它旨在克服图像理解和密集像素级定位方面的挑战，从而扩展LMM中视觉指令调整的能力。

　　该流水线包含四个不同的级别(见图4)。i) Level-1专注于目标定位，并提供语义标签、分割掩码、属性和深度信息。ii) Level-2定义了检测目标之间的关系。iii) Level-3将前两级的信息组织成分层场景图，用于使用LLM和上下文中的示例生成密集说明文字。iv) Level-4提供了丰富的上下文信息，以加深对场景的理解，超越了观察到的内容(例如，地标的历史信息)。有关流水线实现的详细信息，请参阅附录A.4。

4.1. Object Localization and Attributes (Level-1)

　　在Level-1中，重点是图像中的详细目标识别。首先，使用多个SoTA目标检测模型来识别目标边界框。将类无关NMS应用于每个模型，以滤除假阳。在该步骤之后，使用IoU来比较来自不同模型的边界框，其中仅当边界框被至少两个其他检测模型检测到时，边界框才被保留为目标。我们还使用基于区域的视觉-语言模型为每个过滤后的目标生成属性，并结合深度信息来将每个目标在场景中的相对位置情境化。

4.2. Relationships and Landmarks (Level-2)

　　在Level-2中，生成整个场景的多个简短文本描述。从这些描述中提取的短语定位Level-1中的特定目标，以形成关系。这些关系阐明了多个目标之间的连接，或定义了目标在场景中的角色。此外，每个场景都被分配了一个地标类别，包括一个主要类别和一个更具体的子类别(见附录7中的表7)。

4.3. Scene Graph and Dense Captioning (Level-3)

　　在Level-3中，来自Level-1的目标属性和标签与从Level-2获得的关系和短语相结合，形成分层场景图。该结构化数据用作LLM的查询，以生成密集的图像说明文字。为了提供额外的上下文，深度值和边界框坐标用于将每个目标指定给场景中的特定空间层，例如直接前景、前景、中景或背景。此外，在场景图中加入了简短的场景级说明文字，以增强LLM的上下文理解。

密集说明文字验证：为了提高LLM生成的密集说明文字的精确性，我们使用思想链提示实现了一个自动验证流水线。该流水线生成了一个目标检查表，这些目标来自生成的密集说明文字(预计会出现在图像中)。如果场景图中没有检查表中指定的任何目标，则相关联的说明文字将被标记为不准确。然后重新生成这样的说明文字，并将初始评估的反馈纳入其中。

4.4. Extra Contextual Insights (Level-4)

　　Level-4构建在Level-3的场景图上，以获得更详细的视觉理解。我们查询LLM以提取超出基本目标识别和关系的扩展上下文见解，包括关于地标的细节、历史背景、与场景交互的指导方针，甚至关于未来事件的预测元素。为了促进这一点，我们用上下文示例提示LLM。

　　利用我们的自动注释流水线，我们注释了11M幅SAM图像[18]的语料库，这些图像具有固有的多样性、高分辨率和隐私兼容性。所得到的数据集包括810M个区域，每个区域与分割掩码相关联，并且包括7.5M个独特的概念。此外，数据集以84M个引用表达、22M个定位短说明文字和11M个密集定位说明文字为特征。据我们所知，这是第一个完全通过自动注释流水线生成的这种规模的数据集(详见表2，数据集样本可视化见图15)。

4.5. Building GranD_f for GCG

　　由于在微调阶段需要更高质量的数据，我们引入了GranD_f。它包含214K个图像定位文本对和2.5K个验证和5K个测试样本。GranD_f包括两个主要组件：一个子集是手动注释的，另一个子集通过重新利用现有的开源数据集来派生。

　　我们通过生成兼容的GCG注释来扩展开源数据集，即Flickr30K [37]、RefCOCOg [16]和PSG [49]。对于RefCOCOg，我们使用数据集的引用表达及其连接掩码。这些表达对图像中不同的目标进行了简洁的描述。在GPT-4的帮助下，我们将这些引用表达与来自COCO说明文字的上下文信息无缝融合，在保留原始引用表达的同时，制作详细而准确的定位说明文字。这确保了短语与其相应的分割掩码匹配时的零误差。该技术产生大约24K个GCG样本。对于PSG，我们利用数据集的三元组结构，该结构描述场景中两个目标之间的关系。使用GPT-4将这些三元组与COCO说明文字集成，从而生成可以映射到分割掩码的密集注释说明文字。这为我们提供了大约31K个额外的GCG样本。对于Flickr-30K，我们使用158K个Flickr说明文字及其引用表达以及相关的边界框。然后使用HQ-SAM [17]对这些框进行精确分割。

　　此外，我们还提供了一个小且高质量的手动注释集来对GCG任务进行基准测试。使用GranD的自动注释作为基础，注释器细化引用表达以匹配SAM GT掩码，产生约1000个聚焦样本用于训练，1000个用于评估(有关设计的提示词和数据集可视化，请参阅附录D和图14)。

5. Experiments

　　我们在六个基准上对GLaMM进行了定量评估：i) 定位会话生成(GCG)，ii) 引用表达分割，iii) 区域级说明文字，iv) 图像级说明文字，v) 会话风格问答和vi) 短语基础。接下来我们将介绍前四个基准，其余的在附录B中进行讨论。

定位会话生成(GCG)。我们在GranD数据集上预训练GLaMM，然后在GranD_f数据集上进行微调。GranD_f数据集的验证和测试结果如表3所示(详见第3.2节和第4.5节)。与基线方法相比，GLaMM显示出改进的性能。BuboGPT和Kosmos-2的预训练模型来源于官方发布，LISA在GranD_f数据集上进行了调整和训练，用于GCG任务。GLaMM†表示在GranD_f数据集上训练的变体，不包括1000张人类注释图像。定性结果如图3和补充图7所示。

引用表达分割。在该任务中，模型处理图像和基于文本的引用表达，以输出分割掩码。使用的提示词是，“Please segment the <referring expression> in the image.” 模型响应为“Sure, it is <SEG>.”，其中<SEG> token被解码以获得掩码。我们在表4中的refCOCO、refCOCO+和refCOCOOg验证和测试集上的LISA等最近的工作中取得了更好的结果。这证明了我们的GranD数据集的有效性，在预训练期间为模型提供了广泛的概念词汇(参见图5(中)和补充图8，以获得定性结果)。

区域级说明文字。在这项任务中，模型通过边界框和相关文本生成给定图像、用户指定区域的区域特定说明文字。我们使用诸如“Can you provide a detailed description of the region <bbox>?”这样的提示词来指示该任务的模型，其中特殊token <bbox>被实际的区域表征替换。我们使用METEOR和CIDEr指标对Visual Genome和refCOCOg上的GLaMM进行了评估，结果如表5所示。GLaMM在微调后显示出优于GRiT和GPT4RoI的结果，并显示出稳健的零样本性能，突出了GranD的区域-文本对的重要性(定性结果参见图5(左)和补充图9)。

图像级说明文字。对于这项任务，GLaMM用文字描述来回答诸如“Could you please give me a detailed description of the image?”之类的问题。我们评估了GLaMM在Flickr30k [37]和NoCap [1]数据集上的零样本性能，表6显示了其相对于最近的图像说明文字模型和其他LMM的良好性能(参见图5(右)和补充图10以获得定性结果)。

　　关于六个下游任务的定性结果以及条件图像生成，请参阅附录C。

6. Conclusion

　　我们介绍了GLaMM，这是第一个能够生成与目标分割掩码交织的自然语言响应的模型，允许增强多模态用户交互。认识到缺乏视觉定位对话的标准化基准，我们引入了定位对话生成的新任务，并建立了一个全面的评估协议。为了促进研究和模型开发，我们创建了定位一切数据集(GranD)，这是一个大规模的、注释密集的数据集，包含810万个区域的750万个独特概念。我们的自动化注释流水线确保了用于我们模型的数据集的可靠性和可扩展性。除了这些贡献之外，我们还利用现有的开源数据集，创建了一个专门为GCG任务量身定制的数据集(GranD_f)，建立了一个高质量的微调数据集，以开发视觉定位对话。我们的模型在除了GCG之外的下游任务上表现良好，包括区域和图像说明文字、引用分割和视觉-语言对话。

Supplementary Material

A. Additional Implementation Details

A.1. Evaluation Metrics

掩码召回：为了量化区域特定定位，我们利用两层验证方法提出了一个“掩码召回”指标。最初，预测掩码通过一对一的集合分配映射到真正事实掩码，然后对这些对进行IoU计算。超过0.5 IoU阈值的对使用BERT进行文本相似性评估。只有当IoU和BERT相似度都超过其0.5阈值时，一对才被认为是真阳性(TP)；否则，它被分类为假阳性(FP)。随后使用标准公式计算掩码召回，通过总真正事实掩码计数对TP的数量进行归一化。

A.2. Model Architecture and Training

　　在我们所有的实验中，我们使用了具有7B参数的Vicuna LLM [60]。区域编码器的设计灵感来自GPT4RoI [57]，定位图像编码器和像素解码器的设计灵感来源于LISA [21]。V-L和L-P层使用具有GELU激活的2层MLP来实现，如LLaVA-v1.5 [28]中所述。我们使用PyTorch来实现我们的GLaMM，并在训练期间使用Deepspeed zero-2优化。

　　具体来说，我们的模型是使用两种类型的损失来训练的：用于文本生成的自回归交叉熵损失和用于分割的每像素二值交叉熵损失与DICE损失的线性组合。在训练过程中，全局图像编码器和定位图像编码器保持冻结，区域编码器、投影层(V-L和L-P)和像素解码器被完全微调，而LLM被LORA微调(α=8)。我们的代码和预训练模型将公开发布。

A.2.1 Pretraining on GranD

　　在预训练过程中，GLaMM在GranD数据集上进行训练，同时用于引用表达分割、区域级说明文字、图像级说明文字和定位会话生成(GCG)任务。我们使用160的批大小，并在预训练期间训练总共35K次迭代。我们使用LORA-8来有效地调整LLM，并初始化来自GPT4RoI [57]的预训练以更快地收敛。在第5节的实验表中，我们将该模型称为GLaMM (ZS)，它是在GranD上预训练后获得的。

A.3. Finetuning on Downstream Tasks

　　我们在多个下游任务上微调GLaMM，包括GCG、引用表达分割、区域级说明文字和图像级说明文字。对于GCG，我们在GranD_f数据集上微调我们的模型。使用160的批量大小，并且对模型进行总共5K次迭代的训练。值得注意的是，GranD_f数据集是多个开源数据集的组合，我们使用GPT4 [34]将其重新用于GCG任务。请参阅附录D用于查询GPT4以构建GranD_f数据集的提示词，以及数据集可视化。

　　对于引用表达分割，我们在refCOCO、refCOCO+和refCOCOg数据集上微调GLaMM。我们在表4中将该模型表示为GLaMM (FT)。类似地，对于区域级说明文字，GLaMM (FT)在refCOCOg和Visual Genome数据集上进行了微调。对于图像级说明文字，我们在LLaVA-Instruct150K [29]数据集上微调GLaMM。对于LLaVA-bench，该模型在LLaVA-Instruct-80K [29]指令集上进行了微调。我们在所有预训练和微调实验中使用了八个NVIDIA A100-40GB GPU。

A.4. Automated Dataset Annotation Pipeline

　　我们的自动化注释流水线包含了不同级别的各种最先进的模型。对于Level-1，我们使用Tag2Text [14]和RAM [58]进行图像标记，使用CoDETR [62]、EVAv02 [7]、OWL-ViT [33]和POMP [40]进行目标定位，使用GRiT [48]和GPT4RoI [57]进行属性生成，使用MiDAS [39]进行深度估计。Level-2利用BLIP-2 [24]和LLaVA-v1.5 [28, 29]进行场景描述和地标分类，利用SpaCy [11]进行短语提取，利用MDETR [15]进行短语定位。对于Level-3和Level-4，我们使用具有13B参数的Vicuna-v1.5 [60]，并辅以上下文示例。有关在不同流水线级别上使用的实现和LLM提示词的更多详细信息，请参阅附录A.4。

　　我们设计了一个全自动的数据集注释流水线，使用视觉域中的多个层次来构建GranD数据集。通过将我们检测到的标记区域与SAM提供的类不可知区域进行比较，可以从SAM [18]注释中获得大多数区域的分割掩码。对于与任何SAM区域都不匹配的其余区域，我们使用边界框查询运行SAM模型以获得掩码。

　　我们的自动注释流水线仅使用开源模型，并通过LLM使用思想链进行提示。由于它不需要来自回路中的人的反馈，因此可以对其进行缩放以生成大量图像的密集噪声标签，然后可以使用这些标签来预训练更大的LMM。如果有足够的计算能力，这可能是朝着构建更大的通用大型多模态模型迈出的一步。我们将发布我们的GranD数据集，同时实现我们的自动数据集注释流水线，以供进一步研究。下面我们将介绍我们在自动化数据集注释流水线的不同级别使用的LLM提示词。

A.4.1 LLM Prompts and In-context Learning

地标分类：我们使用LLaVA-v1.5-13B [28]模型为每个图像分配地标类别。所使用的主要和精细类别请参见表7。

密集说明文字：我们分层排列目标、属性和关系，构建一个视觉场景图，用于查询Vicuna-v1.5-13B [60]模型以及上下文示例，以生成密集说明文字。设计的提示如图6(a)所示。

额外上下文：我们查询Vicuna-v1.5-13B模型以生成关于视觉场景的额外上下文。为此目的设计的提示词如图6(b)所示。

B. Additional Downstream Tasks

B.1. Phrase Grounding

为了使GLaMM模型适应短语定位，我们重新调整了GCG数据集的用途，以适应这一特定任务。具体来说，GCG数据集中的答案现在被用作问题，说明文字中包含定位的部分被视为短语。随后对模型进行训练，以定位这些短语的像素级定位，这些短语包含在和 token中。这种调整的结果如下图所示。

B.2. Conversational Style Question Answering

　　我们在LLaVA-Bench [28, 29]上评估我们的模型，该基准使用GPT-4来评估模型。该基准测试在三种不同类型的任务上测试该模型：会话问答、详细描述和复杂推理任务。该评估提供了对模型对话和推理能力的深入了解。

　　表8中的结果将GLaMM与以前的开源模型进行了比较。我们注意到，GLaMM的性能与最近发布的LLaVA-1.5不相上下，后者利用额外的数据实现视觉到语言的对齐。定性结果如图11和图13所示。

C. Additional Qualitative Results

　　在本节中，我们提供了更多定性示例，以更好地了解GLaMM的能力。

C.1. Grounded Conversation Generation (GCG)

　　图7显示了在GranD_f数据集上微调的GLaMM的定性结果。该模型可以产生密集的说明文字，并提供说明文字的密集像素级定位。

C.2. Referring Segmentation

　　图8显示了GLaMM在理解自然语言查询和分割相应目标方面的有效性。请注意，GLaMM还可以通过多轮对话分割多个目标。

C.3. Region-level Captioning

　　图9显示了GLaMM用于区域级理解的定性结果。我们的模型可以生成关于图像中用户指定区域的详细描述。

C.4. Image-level Captioning

　　图10显示了GLaMM在文字说明任务上的定性结果。我们的模型可以为图像生成密集的说明文字。

C.5. Conditional Image Generation

　　图12显示了GLaMM对生成任务的无缝集成。我们使用Stable Diffusion图像修复模型stable-diffusion-xl-1.0-inpainting [41]来完成这项任务。我们首先使用基于用户查询的GlaMM模型生成分割掩码。该分割掩码与用户提示一起作为Stable Diffusion图像修复模型的输入，该模型生成最终输出。

C.6. Conversations

　　图13展示了GLaMM参与多用途任务对话的独特功能。GLaMM是一种通用的会话模型，可以接受文本和/或区域形式的提示词，并可以以文本和/或分割掩码的形式回答。请注意，我们的模型没有明确训练来处理这种场景，这种行为的出现主要是由于我们在GranD数据集上进行了预训练，其中图像在不同的上下文中呈现给LMM。

D. Dataset Visualization

　　在本节中，我们提供了GranD和GranD_f数据集的额外数据集样本，以更好地了解它们提供的功能。请参见图15和图14。

E. Limitations and Future Work

　　大规模的自动化流水线提供了密集的标签，这对我们的预训练很重要，但仍包含一些噪声。高质量、干净的数据集可以帮助进一步改进预训练的表征，尽管这需要高得多的注释成本。一个潜在的研究方向是开发一种具有成本效益的注释流水线，旨在减少密集标记中的噪声。此外，将GLaMM框架扩展到包括视频和3D等模态也是未来的研究方向。

F. Ethics and Societal Impact

　　我们的定位一切数据集(GranD)利用了已取消识别的个人信息的SAM图像，所有人脸和车牌都被遮挡。据我们所知，数据集没有描绘出任何强烈的偏见或歧视。我们敦促负责任地使用GranD和GLaMM，在保护隐私的同时促进研究进展。

posted on 2024-06-08 19:20 穷酸秀才大草包阅读(147) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

穷酸秀才大艹包

GLaMM : Pixel Grounding Large Multimodal Model

导航

公告