摘要: 摘要 随着视觉和文本表示联合建模的进展,视觉语言预训练(VLP)在许多多模态下游任务上取得了非常好的性能。然而,对包括图像描述和区域标签在内的标注信息,限制了这一方向的进一步方法。此外。随着引入多个数据集特定的目标,预训练过程也变得更加复杂。在这项工作中,作者放宽了这些约束,提出了一个极简的预训练框 阅读全文
posted @ 2024-08-16 07:22 龙雪 阅读(8) 评论(0) 推荐(0) 编辑