[Paper Reading] DALLE3: Improving Image Generation with Better Captions

DALLE3: Improving Image Generation with Better Captions

DALLE3: Improving Image Generation with Better Captions
时间：23/10
机构：OpenAI

TL;DR

本文认为text-image效果不够好的原因主要是训练集中text噪声太大，不够精确。本文展示了高描述性的text可以从本质上提升text-image任务的效果。本文没有开放DALLE3的全部训练细节，但展示了关键提升策略。

Method

captioner

利用已有训练集中的text与image信息，作者训练一个langue model作为captioner，不同于一般的LM，该captioner除了输入text之外还需要加入CLIP image embedding。这样，作者在一个小型数据集上训练了两个captioner，一个用来预测简短主题caption称为SSC(short synthetic captions)，另一个称为DSC(descriptive synthetic captions)，可以生成图像细节描述，包括环境背景等。关于如何训练captioner作者没有详细描述，感兴趣可以看一些网友的分析。

Experiment

Q: 仿真数据与真实数据混合比例对于效果的影响？
首先一个问题是，仿真数据那么好，为什么还需要和真实数据混合呢？因为在text2image这个任务上，生成效果很容易过拟合到训练text的分布上（比如，训练时所有text以空格开头，那推理时，如果没有以text开头，结果会出现异常）。最好的text分布就是人工标注的text，即Ground truth。GT缺少细节描述，仿真数据分布与人类输入text有gap，所以需要两者混合相互弥补。
结论：混入95%的DSC效果最佳（DALLE3就是这个配比训出来的）

Q: 使用训练集使用哪种caption效果更好？
结论：DSC > SSC > GT。评测时如果都不加入GT text，差距更明显。

Q: 与其它Text2image方法的效果对比。