[Paper Reading] KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models

名称

KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models
时间：23.05
机构：Microsoft

TL;DR

一种输入多模型信息的大语言模型，作者称之为多模型大语言模型(MLLM)，可以图多连续问答。

Method

主要模型架构参考他们22年工作，Language Models are General-Purpose Interfaces，其中text, image的encoder都是pretrain好的，image encoder像是一个ViT。
数据： 三类数据成分，纯文本语料库(Text Corpora)来自Github/Arxiv等，图文对(Image-Caption Pairs)比如Laion2B/Laion400M，交错图像数据(Interleaved Image-Text Data)比如网页数据。

Experiment

Perception-Language Tasks

作者主要使用了两个task：

image-captioning: 对图像生成文字描述。
VQA: visual question answering: 针对图像回答问题。

OCR-Free语言理解

该任务考查模型，不依赖于OCR，直接从图像中理解词句的能力。

Zero-Shot Image Classification

ImageNet上结果，看起来不如CLIP。

总结与发散

MLLM是以LLM为基础架子，将其它模态特征建模进来。

fariver

[Paper Reading] KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models

名称

TL;DR

Method

Experiment

Perception-Language Tasks

OCR-Free语言理解

Zero-Shot Image Classification

总结与发散

相关链接

公告

搜索

常用链接

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论