摘要: 前言 Segment Anything 的关键特征是基于提示的视觉 Transformer(ViT)模型,该模型是在一个包含来自 1100 万张图像的超过 10 亿个掩码的视觉数据集 SA-1B 上训练的,可以分割给定图像上的任何目标。这种能力使得 SAM 成为视觉领域的基础模型,并在超出视觉之外的 阅读全文
posted @ 2023-12-08 13:29 CV技术指南(公众号) 阅读(127) 评论(0) 推荐(0) 编辑