Typesetting math: 100%

Visual Instruction Tuning

Liu H., Li C., Wu Q. and Lee Y. J. Visual Instruction Tuning. NeurIPS, 2023.

LLaVA.

LLaVA

  • LLaVA 希望用 LLM 推理模态特征, 想法很简单:

    1. 用 Vision Encoder 得到模态特征:

      Zv=g(Xv).

    2. 用 Linear 投影:

      Hv=WZv.

    3. Hv 和指令 Hq 凭借起来作为 LLM 的输入.
  • 训练的 Instruct 是这么构造的: (Xq1,Xa1,,XqT,XaT), 对于每个图片都有 T 轮的对话数据 (question, answer). 然后

    Xinstructt={Randomly choose [Xq1,Xv] or [Xv,Xq1],the first trun t=1,Xqt,the remaining turns t>1.

    即就第一次的时候加一个图片 (可以是图片在前, 也可以是指令在前, 这比较符合实际的使用习惯).

  • Pre-training: 预训练的时候固定 Vision encoder 和 LLM, 之训练 projecter:

    minWlogp(Xa,Xv,Xinstruct).

  • Fine-tuning: 固定 Vision encoder, 微调 LLM 和 projecter, 在一些 QA 数据集上微调.

代码

[official-code]

posted @   馒头and花卷  阅读(21)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 为DeepSeek添加本地知识库
· 精选4款基于.NET开源、功能强大的通讯调试工具
· DeepSeek智能编程
· 大模型工具KTransformer的安装
· [计算机/硬件/GPU] 显卡
历史上的今天:
2022-06-14 Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System
2021-06-14 SMOOTHING (LOWPASS) SPATIAL FILTERS
2021-06-14 Data Augmentation
2021-06-14 TriggerBN ++
点击右上角即可分享
微信分享提示