摘要: CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的 阅读全文
posted @ 2024-03-22 11:31 deephub 阅读(269) 评论(0) 推荐(0) 编辑