[转载]Meta AI：多模态理解研究进展与未来

来源：https://hub.baai.ac.cn/view/15976
原文：https://ai.facebook.com/blog/advances-in-multimodal-understanding-research-at-meta-ai/

facebook的多模态项目Meta AI

在过去的几年里，Meta AI产生了一系列的研究项目，每个项目都解决了多模态感知的重要挑战--从解决用于训练的公开数据的短缺（Hateful Memes），到为视觉、语音和文本创建单一算法（Data2vec），到建立适用于许多任务的基础模型（FLAVA），到寻找正确的模型参数（Omnivore），以及其他许多项目。总的来说，它们代表了一个明显的趋势。在不久的将来，多模态理解将是更智能的人工智能系统的关键。

FLAVA：一个横跨数十个多模态任务的基础模型

FLAVA: A foundational model spanning dozens of multimodal tasks
FLAVA代表了一类新的 "基础模型"，它经过联合训练，可以完成超过35个领域的任务，包括图像识别、文本识别和文本-图像联合任务。例如，FLAVA模型可以单枪匹马地描述图像的内容，推理其文本的必然性，并回答关于图像的问题。FLAVA还能在一系列任务中实现令人印象深刻的零距离文本和图像理解能力，如图像分类、图像检索和文本检索。

FLAVA不仅改进了通常只擅长一项任务的先前工作，而且与先前的工作不同，它还使用了在公开的公共配对上预训练的共享干线--我们希望这将有助于进一步推动研究。

适用于许多任务的基础模型（FLAVA）

https://arxiv.org/abs/2112.04482

CM3: 通用于新的多模态任务

CM3: Generalizing to new multimodal tasks

CM3是目前最通用的开源多模态模型之一。通过对结构化多模态文件的大型语料库进行训练，它可以生成全新的图像和这些图像的标题。在我们的设置中，它也可以用来填充完整的图像或更大的结构化文本部分，以文档的其余部分为条件。使用以类似HTML的语法生成的提示，完全相同的CM3模型可以生成新的图像或文本，为图像加上标题，并对文本中的实体进行区分。

https://arxiv.org/abs/2201.07520

posted on 2022-04-18 15:32 宋岳庭阅读(176) 评论(0) 编辑收藏举报