摘要: 《Align before Fuse: Vision and Language Representation Learning with Momentum Distillation》 引言 VLP目标是从大规模图片-文本对子中学习到多模态表示,一次改进下游的视觉-语言任务。 VLP框架的局限性如下: 阅读全文
posted @ 2023-11-21 21:12 Laplace蒜子 阅读(757) 评论(0) 推荐(0) 编辑