Loading

摘要: Motivation & Abs 近年来,大语言模型在视觉方面取得了极大的进步,但其如何完成定位任务(如word grounding等)仍然不清楚。本文旨在设计一种模型能够将一系列点/边界框作为输入或者输出。当模型接受定位信息作为输入时,可以进行以定位为condition的captioning。当生 阅读全文
posted @ 2024-08-01 17:12 脂环 阅读(20) 评论(0) 推荐(0) 编辑