Loading

摘要: 摘要 在端到端深度学习系统中,图像区域的分组通常是通过像素级识别标签的自上而下的监督而隐式发生。在本文中,作者将分组机制带回深度网络中,这使得语义分割可以在只有文本信号监督的情况下完成。具体来说,作者提出了一种分组group的ViT模型,通过对比损失,在一个大规模的图像-文本数据集上与文本编码器共同 阅读全文
posted @ 2022-10-17 22:23 脂环 阅读(676) 评论(0) 推荐(0) 编辑