[Paper Reading] KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models
名称
KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models
时间:23.05
机构:Microsoft
TL;DR
一种输入多模型信息的大语言模型,作者称之为多模型大语言模型(MLLM),可以图多连续问答。
Method
主要模型架构参考他们22年工作,Language Models are General-Purpose Interfaces,其中text, image的encoder都是pretrain好的,image encoder像是一个ViT。
数据: 三类数据成分,纯文本语料库(Text Corpora)来自Github/Arxiv等,图文对(Image-Caption Pairs)比如Laion2B/Laion400M,交错图像数据(Interleaved Image-Text Data)比如网页数据。
Experiment
Perception-Language Tasks
作者主要使用了两个task:
- image-captioning: 对图像生成文字描述。
- VQA: visual question answering: 针对图像回答问题。
OCR-Free语言理解
该任务考查模型,不依赖于OCR,直接从图像中理解词句的能力。
Zero-Shot Image Classification
ImageNet上结果,看起来不如CLIP。
总结与发散
MLLM是以LLM为基础架子,将其它模态特征建模进来。