摘要: 前言 智源研究院视觉团队推出以视觉感知为中心的基础模型 TAP (Tokenize Anything via Prompting), 利用视觉提示同时完成任意区域的分割、识别与描述任务。将基于提示的分割一切基础模型 (SAM) 升级为标记一切基础模型 (TAP) ,高效地在单一视觉模型中实现对任意区 阅读全文
posted @ 2024-01-08 17:12 CV技术指南(公众号) 阅读(170) 评论(0) 推荐(0) 编辑