Loading

摘要: Motivation & Method 关注的任务为zero-shot referring image segmentation,模型无法获得pixel-level的分割标注。之前的方法通常使用预训练的多模态模型如CLIP,然而CLIP使用图像文本对进行训练,难以做到image local patc 阅读全文
posted @ 2024-09-05 01:04 脂环 阅读(14) 评论(0) 推荐(0) 编辑