多模态大模型概述-大语言模型6
多模态大模型概述-大语言模型6
想了很久,最后还是写了这篇。
LLaVA#
贡献#
- 多模态指令数据。当下关键的挑战之一是缺乏视觉与语言组成的指令数据。本文提出了一个数据重组方式,使用 ChatGPT/GPT-4 将图像 - 文本对转换为适当的指令格式;
- 大型多模态模型。研究者通过连接 CLIP 的开源视觉编码器和语言解码器 LLaMA,开发了一个大型多模态模型(LMM)—— LLaVA,并在生成的视觉 - 语言指令数据上进行端到端微调。实证研究验证了将生成的数据用于 LMM 进行 instruction-tuning 的有效性,并为构建遵循视觉 agent 的通用指令提供了较为实用的技巧。使用 GPT-4,本文在 Science QA 这个多模态推理数据集上实现了最先进的性能。
- 开源。研究者向公众发布了以下资产:生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示。
方法#
- 使用 LLaMA 模型作为 Language Model
- 使用线性层
将图像特征连接到词嵌入空间。在LLaVA 1.5中,该部分被替换为MLP。 - 使用 ViT-L/14 作为 Vision Encoder
对于输入图像
训练过程#
LLaVA的训练分为两个阶段:
阶段1:特征对齐的预训练。
- 只更新投影矩阵:在这个阶段,只有连接视觉编码器和语言模型的投影矩阵被更新。
- 基于CC3M子集:这一阶段的训练是基于CC3M数据集的一个子集进行的。
阶段2:端到端的微调。更新投影矩阵和LLM:在这个阶段,投影矩阵和大型语言模型(LLM)都会被更新。
结果#
GPT-4V#
CloseAI 的 GPT-4V 没有那么多公开的技术细节,只能看看他能做什么、能达到什么效果。
MiniGPT-4#
MiniGPT-4 仅使用一个投影层将一个冻结的视觉编码器(BLIP-2)与一个冻结的 LLM(Vicuna)对齐。其实和LLaVA是差不多的。
VITRON#
前面的那些模型都不能输出图像,这个是能输出图像的。
光看这个框架图是不是就明白了?它通过训练不同的Projection融合并让后面可以生成的图像。
模型架构#
- Core LLM Block:Vicuna (7B, version 1.5)
- 输入:
- 文本:常规LLM Embedding
- 图像:CLIP ViT-L/14@336px,patch_size=14
- 视频:先独立处理每个帧,再平均池化
- 指令:与arXiv:2312.10032一致
- Backend:看图中的表
模型训练#
第一步,视觉-语言对齐。LLM frozen,只训练Projection。
we utilize datasets comprising ‘image-caption’ pairs (CC3M [84]), ‘video-caption’ pairs (Webvid [5]), and ‘region-caption’ pairs (RefCOCO [36])
第二步,时空视觉训练。通过LoRA微调LLM,使LLM能够“将图像的细粒度空间性和视频的详细时间性结合起来”。简单的说就是对其视频和图像。这一步又包括了图像空间标注、视频时空标注和Grounding-aware 视觉QA三步组成。
第三步,面向调用的指令调优输出。
效果展示#
作者:xiangcaoacao
出处:https://www.cnblogs.com/xiangcaoacao/p/18162428
版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)