Fork me on GitHub

Cogview2:更快更好的文生图分层Transformer模型

摘要

由于生成高分辨率图像较为缓慢且复杂,基于Transformer的文本到图像模型的发展阻碍。在这项工作中,研究者提出了一种基于分层Transformer和局部并行自回归生成的解决方案。研究者预训练了一个60亿参数的transformer模型,采用简单灵活的司监督任务、跨模态通用语言模型(CogLM),并通过微调实现快速超分辨率生成。Cogview2相比DALL·E-2具有非常竞争力的乘车结果,并天然支持对图像进行交互式的文本引导编辑。

论文链接:https://arxiv.org/abs/2204.14217

posted @ 2022-05-31 19:58  stardsd  阅读(579)  评论(0编辑  收藏  举报