Visualbert --- A simple and performant baseline for vision and language
Visualbert: A simple and performant baseline for vision and language
2022-03-20 15:19:04
Paper: https://arxiv.org/pdf/1908.03557
1. Background and Motivation:
本文提出了一种简单灵活的模型 VisualBERT 来捕获 image 和 对应文本之间的丰富语义信息。VisualBERT 将 BERT 和 pre-trained object proposal systems,如 Faster-RCNN 检测器,结合起来。特别的,从图像特征中提取出来的 object proposals 被当做是一种无序的 input tokens,将其和 text 输入到 VisualBERT 。输入的文本和图像输入被多个 Transformer layers 联合进行处理。单词和物体候选框之间的交互,使得模型可以捕获文本和图像之间错综复杂的关系。
类似 BERT,在额外资源上的 pre-training VisualBERT 可以对下游任务带来提升。为了学习两个模态之间的关系,作者将 VisualBERT 的预训练放在 image captioning data 上进行,其中,图像的细节语义信息在自然语言中得到了充分的表达。作者提出了两个 visually-grounded language model objectives 进行预训练:
1). masked language prediction;
2). image-text matching loss.
作者的实验表明,在 image captioning data 上进行这种预训练,对于 VisualBERT 来说可以较好地学习可迁移的文本和视觉表示。
2. A Joint Representation model for vision and language:
如图 2 所示,该模型的输入有两个部分:图像 proposal 特征,以及 文本描述。此外,还有 segment embedding 和 position embedding。segment embedding 是指图像的 embedding,而不是 text embedding;position embedding 是用于对齐 words 和 BBox regions。
在训练阶段,作者进行了三个部分的训练:
1). 与任务无关的 pre-training:masked language modelling, sentence-image prediction.
2). 特定任务的 pre-training:在将 VisualBERT 在下游任务上进行微调之外,作者发现: it is beneficial to train the model using the data of the task with the masked language modelling with the image objective. 这个步骤使得 model 可以适应新的目标域。
3). Fine-tuning:这个步骤借鉴了 BERT fine-tuning,一个特定任务的输入,输出,目标被引入,Transformer 被训练用于最大化该任务的性能。
==
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
2019-03-20 论文笔记:Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking
2016-03-20 ASPL代码备份(完整版)