多模态大模型概述-大语言模型6

想了很久，最后还是写了这篇。

LLaVA

贡献

多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式，使用 ChatGPT/GPT-4 将图像 - 文本对转换为适当的指令格式；
大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA，开发了一个大型多模态模型（LMM）—— LLaVA，并在生成的视觉 - 语言指令数据上进行端到端微调。实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性，并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。使用 GPT-4，本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。
开源。研究者向公众发布了以下资产：生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。

方法

使用 LLaMA 模型作为 Language Model \(f_φ\)
使用线性层 \(W\) 将图像特征连接到词嵌入空间。在LLaVA 1.5中，该部分被替换为MLP。
使用 ViT-L/14 作为 Vision Encoder \(g(·)\)

对于输入图像 \(X_v\) 与输入大语言模型的视觉标记 \(H_v\)，有:

\[H_v = W \times Z_v = W \times g(X_v) \]

训练过程

LLaVA的训练分为两个阶段：

阶段1：特征对齐的预训练。

只更新投影矩阵：在这个阶段，只有连接视觉编码器和语言模型的投影矩阵被更新。
基于CC3M子集：这一阶段的训练是基于CC3M数据集的一个子集进行的。

阶段2：端到端的微调。更新投影矩阵和LLM：在这个阶段，投影矩阵和大型语言模型（LLM）都会被更新。

结果

GPT-4V

CloseAI 的 GPT-4V 没有那么多公开的技术细节，只能看看他能做什么、能达到什么效果。

MiniGPT-4

MiniGPT-4 仅使用一个投影层将一个冻结的视觉编码器（BLIP-2）与一个冻结的 LLM（Vicuna）对齐。其实和LLaVA是差不多的。

VITRON

前面的那些模型都不能输出图像，这个是能输出图像的。

光看这个框架图是不是就明白了？它通过训练不同的Projection融合并让后面可以生成的图像。

模型架构

Core LLM Block：Vicuna (7B, version 1.5)
输入：
- 文本：常规LLM Embedding
- 图像：CLIP ViT-L/14@336px，patch_size=14
- 视频：先独立处理每个帧，再平均池化
- 指令：与arXiv:2312.10032一致
Backend：看图中的表

模型训练

第一步，视觉-语言对齐。LLM frozen，只训练Projection。
we utilize datasets comprising ‘image-caption’ pairs (CC3M [84]), ‘video-caption’ pairs (Webvid [5]), and ‘region-caption’ pairs (RefCOCO [36])

第二步，时空视觉训练。通过LoRA微调LLM，使LLM能够“将图像的细粒度空间性和视频的详细时间性结合起来”。简单的说就是对其视频和图像。这一步又包括了图像空间标注、视频时空标注和Grounding-aware 视觉QA三步组成。

第三步，面向调用的指令调优输出。

效果展示

图像与视频分割：

视觉理解与生成：

posted @ 2024-04-27 21:34 vanilla阿草阅读(346) 评论(0) 编辑收藏举报

刷新页面返回顶部

Loading

vanilla

多模态大模型概述-大语言模型6

多模态大模型概述-大语言模型6

LLaVA

贡献

方法

训练过程

结果

GPT-4V

MiniGPT-4

VITRON

模型架构

模型训练

效果展示

公告