Loading

摘要: Motivation & Abs Qwen-VL系列模型,通过设计(1)视觉感受器;(2)输入输出接口;(3)3阶段训练流水线;(4)多语言多模态高质量语料库从而赋予模型视觉感受的能力。除了传统的image description以及VQA任务外,作者还通过对齐image-caption-box从而 阅读全文
posted @ 2024-12-09 17:23 脂环 阅读(27) 评论(0) 推荐(0) 编辑