Visual Instruction Tuning
Liu H., Li C., Wu Q. and Lee Y. J. Visual Instruction Tuning. NeurIPS, 2023.
概
LLaVA.
LLaVA
-
LLaVA 希望用 LLM 推理模态特征, 想法很简单:
- 用 Vision Encoder 得到模态特征:
- 用 Linear 投影:
- 把 和指令 凭借起来作为 LLM 的输入.
- 用 Vision Encoder 得到模态特征:
-
训练的 Instruct 是这么构造的: , 对于每个图片都有 轮的对话数据 (question, answer). 然后
即就第一次的时候加一个图片 (可以是图片在前, 也可以是指令在前, 这比较符合实际的使用习惯).
-
Pre-training: 预训练的时候固定 Vision encoder 和 LLM, 之训练 projecter:
-
Fine-tuning: 固定 Vision encoder, 微调 LLM 和 projecter, 在一些 QA 数据集上微调.
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 为DeepSeek添加本地知识库
· 精选4款基于.NET开源、功能强大的通讯调试工具
· DeepSeek智能编程
· 大模型工具KTransformer的安装
· [计算机/硬件/GPU] 显卡
2022-06-14 Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System
2021-06-14 SMOOTHING (LOWPASS) SPATIAL FILTERS
2021-06-14 Data Augmentation
2021-06-14 TriggerBN ++