摘要: MAE是一种使用自监督预训练策略的ViT,通过遮蔽输入图像中的补丁,然后预测缺失区域进行子监督的与训练。尽管该方法既简单又有效,但 MAE 预训练目标目前仅限于单一模态——RGB 图像——限制了在通常呈现多模态信息的实际场景中的应用和性能。 在新论文 MultiMAE: Multi-modal Mu 阅读全文
posted @ 2022-04-12 11:12 deephub 阅读(375) 评论(0) 推荐(0) 编辑