Loading

多模态大模型概述-大语言模型6

多模态大模型概述-大语言模型6

想了很久,最后还是写了这篇。

LLaVA

贡献

  1. 多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式,使用 ChatGPT/GPT-4 将图像 - 文本对转换为适当的指令格式;
  2. 大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在生成的视觉 - 语言指令数据上进行端到端微调。实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性,并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。使用 GPT-4,本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。
  3. 开源。研究者向公众发布了以下资产:生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。

方法

  • 使用 LLaMA 模型作为 Language Model \(f_φ\)
  • 使用线性层 \(W\) 将图像特征连接到词嵌入空间。在LLaVA 1.5中,该部分被替换为MLP。
  • 使用 ViT-L/14 作为 Vision Encoder \(g(·)\)

对于输入图像 \(X_v\) 与输入大语言模型的视觉标记 \(H_v\),有:

\[H_v = W \times Z_v = W \times g(X_v) \]

训练过程

LLaVA的训练分为两个阶段:

阶段1:特征对齐的预训练。

  • 只更新投影矩阵:在这个阶段,只有连接视觉编码器和语言模型的投影矩阵被更新。
  • 基于CC3M子集:这一阶段的训练是基于CC3M数据集的一个子集进行的。

阶段2:端到端的微调。更新投影矩阵和LLM:在这个阶段,投影矩阵和大型语言模型(LLM)都会被更新。

结果

GPT-4V

CloseAI 的 GPT-4V 没有那么多公开的技术细节,只能看看他能做什么、能达到什么效果。

MiniGPT-4

MiniGPT-4 仅使用一个投影层将一个冻结的视觉编码器(BLIP-2)与一个冻结的 LLM(Vicuna)对齐。其实和LLaVA是差不多的。

VITRON

前面的那些模型都不能输出图像,这个是能输出图像的。

光看这个框架图是不是就明白了?它通过训练不同的Projection融合并让后面可以生成的图像。

模型架构

  • Core LLM Block:Vicuna (7B, version 1.5)
  • 输入:
    • 文本:常规LLM Embedding
    • 图像:CLIP ViT-L/14@336px,patch_size=14
    • 视频:先独立处理每个帧,再平均池化
    • 指令:与arXiv:2312.10032一致
  • Backend:看图中的表

模型训练

第一步,视觉-语言对齐。LLM frozen,只训练Projection。
we utilize datasets comprising ‘image-caption’ pairs (CC3M [84]), ‘video-caption’ pairs (Webvid [5]), and ‘region-caption’ pairs (RefCOCO [36])

第二步,时空视觉训练。通过LoRA微调LLM,使LLM能够“将图像的细粒度空间性和视频的详细时间性结合起来”。简单的说就是对其视频和图像。这一步又包括了图像空间标注、视频时空标注和Grounding-aware 视觉QA三步组成。

第三步,面向调用的指令调优输出。

效果展示

图像与视频分割:

视觉理解与生成:

posted @ 2024-04-27 21:34  vanilla阿草  阅读(275)  评论(0编辑  收藏  举报