2024 年 8月 16 日随笔档案 - 龙雪

2024年8月16日

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision 来自CMU&Google提出的弱监督极简VLP模型

摘要：摘要随着视觉和文本表示联合建模的进展，视觉语言预训练(VLP)在许多多模态下游任务上取得了非常好的性能。然而，对包括图像描述和区域标签在内的标注信息，限制了这一方向的进一步方法。此外。随着引入多个数据集特定的目标，预训练过程也变得更加复杂。在这项工作中，作者放宽了这些约束，提出了一个极简的预训练框阅读全文

posted @ 2024-08-16 07:22 龙雪阅读(8) 评论(0) 推荐(0) 编辑

龙雪的博客

公告