[Paper Reading] KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models

名称

KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models
时间:23.05
机构:Microsoft

TL;DR

一种输入多模型信息的大语言模型,作者称之为多模型大语言模型(MLLM),可以图多连续问答。

Method

主要模型架构参考他们22年工作,Language Models are General-Purpose Interfaces,其中text, image的encoder都是pretrain好的,image encoder像是一个ViT。
数据: 三类数据成分,纯文本语料库(Text Corpora)来自Github/Arxiv等,图文对(Image-Caption Pairs)比如Laion2B/Laion400M,交错图像数据(Interleaved Image-Text Data)比如网页数据。

Experiment

Perception-Language Tasks

作者主要使用了两个task:

  • image-captioning: 对图像生成文字描述。
  • VQA: visual question answering: 针对图像回答问题。

OCR-Free语言理解

该任务考查模型,不依赖于OCR,直接从图像中理解词句的能力。

Zero-Shot Image Classification

ImageNet上结果,看起来不如CLIP。

总结与发散

MLLM是以LLM为基础架子,将其它模态特征建模进来。

相关链接

https://www.zhihu.com/question/587008959

posted @ 2024-03-27 00:12  fariver  阅读(33)  评论(0编辑  收藏  举报