Visual Instruction Tuning

概
LLaVA
代码

Liu H., Li C., Wu Q. and Lee Y. J. Visual Instruction Tuning. NeurIPS, 2023.

概

LLaVA.

LLaVA

LLaVA 希望用 LLM 推理模态特征, 想法很简单:
1. 用 Vision Encoder 得到模态特征:
  $\mathbf{Z}_v = g(\mathbf{X}_v).$
2. 用 Linear 投影:
  $\mathbf{H}_v = \mathbf{W} \cdot \mathbf{Z}_v.$
3. 把 $\mathbf{H}_v$ 和指令 $\mathbf{H}_q$ 凭借起来作为 LLM 的输入.
训练的 Instruct 是这么构造的: $(\mathbf{X}_q^1, \mathbf{X}_a^1, \cdots, \mathbf{X}_q^T, \mathbf{X}_a^T)$ , 对于每个图片都有 $T$ 轮的对话数据 (question, answer). 然后

$\mathbf{X}_{instruct}^t = \left \{ \begin{array}{ll} \text{Randomly choose } [\mathbf{X}_q^1, \mathbf{X}_v] \text{ or } [\mathbf{X}_v, \mathbf{X}_q^1], & \text{the first trun } t = 1, \\ \mathbf{X}_q^t, & \text{the remaining turns } t > 1. \end{array} \right .$
即就第一次的时候加一个图片 (可以是图片在前, 也可以是指令在前, 这比较符合实际的使用习惯).
Pre-training: 预训练的时候固定 Vision encoder 和 LLM, 之训练 projecter:

$\min_{\mathbf{W}} \quad -\log p(\mathbf{X}_a, \mathbf{X}_v, \mathbf{X}_{instruct}).$
Fine-tuning: 固定 Vision encoder, 微调 LLM 和 projecter, 在一些 QA 数据集上微调.

代码

[official-code]

posted @ 2024-06-14 11:34 馒头and花卷阅读(24) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· Linear-Time Graph Neural Networks for Scalable Recommendations

· Lightweight Modality Adaptation to Sequential Recommendation via Correlation Supervision

· Visual Instruction Tuning

· 【论文阅读笔记】多模态大语言模型必读 —— LLaVA

· Fine-tuning in LLaVA：多模态的指令调优

阅读排行：
· Manus重磅发布：全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后，我竟然真的恢复了删除的微信聊天记录！
· 没有Manus邀请码？试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix

历史上的今天：
2022-06-14 Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System
2021-06-14 SMOOTHING (LOWPASS) SPATIAL FILTERS
2021-06-14 Data Augmentation
2021-06-14 TriggerBN ++