Loading

摘要: Motivation & Abs 为现有的多模态大模型引入visual grounding的能力能够增强AI对世界以及人机交互的理解,然而现有的方法通常需要对LLM的参数进行FT以学习额外的seg token,同时过拟合grounding和segmentation的数据集,这会导致对于通用知识以及指 阅读全文
posted @ 2024-06-18 22:33 脂环 阅读(44) 评论(0) 推荐(0) 编辑