[Paper Reading] GAIA-1: A Generative World Model for Autonomous Driving

GAIA-1: A Generative World Model for Autonomous Driving

GAIA-1
时间：23.09
机构：Wayve

TL;DR

本文介绍一种生成世界模型，该模型利用视频、文本和动作输入来生成逼真的驾驶场景，同时提供对自身车辆行为和场景特征的细粒度控制。

Method

模型输入

训练过程输入video/text(参考上图示例)/action(速度、路线曲率)

Image Tokenizer

可以参考VG-GAN以及上面三个Loss项来理解Image Tokenizer的训练(引用[28]就是VQ-VAE)，不过为了让Image Tokenizer有更强的语义信息，还另外增加了Dino特征的监督。参考下图，Dino特征监督后语义信息更强。

World Model

图像序列抽成token sequence之后，用自回归Transformer来训练，训练视频数据由25Hz降采样至6.25Hz。

Video Decoder

使用一个3D UNet将image tokens还原为视频(参考 Video Diffusion Model)，训练过程直接将Image Tokenizer抽出的token sequence拿来还原，推理时使用Worl Model生成的token sequence来还原。

实际训练过程是MultiTask训练，增强Autoregressive video generation泛化性。

其它细节

数据：4.7k小时的训练数据，4.2亿的图像。

Model	Model Size	Training Time
Image Tokenizer	0.3B	32 A100训练4天
World Model	6.5B	64 A100训练15天
Video Decoder	2.6B	64 A100训练15天

推理过程是先生成6.5hz N帧的tokens序列，再上采样到25hz。

Experiment

总结与发散

类似于大语言模型，WorldModel能够从训练视频中压缩概括一些基本规律，在推理时根据Prompt信息预测出合理的场景图像。

资料查询

折叠Title

FromChatGPT(提示词：XXX)

posted @ 2024-07-03 21:19 fariver 阅读(121) 评论(0) 收藏举报

刷新页面返回顶部

fariver