Cogview2：更快更好的文生图分层Transformer模型

摘要

由于生成高分辨率图像较为缓慢且复杂，基于Transformer的文本到图像模型的发展阻碍。在这项工作中，研究者提出了一种基于分层Transformer和局部并行自回归生成的解决方案。研究者预训练了一个60亿参数的transformer模型，采用简单灵活的司监督任务、跨模态通用语言模型（CogLM），并通过微调实现快速超分辨率生成。Cogview2相比DALL·E-2具有非常竞争力的乘车结果，并天然支持对图像进行交互式的文本引导编辑。

论文链接：https://arxiv.org/abs/2204.14217

posted @ 2022-05-31 19:58 stardsd 阅读(579) 评论(0) 编辑收藏举报

刷新页面返回顶部

赏月斋

慎终如始宁静致远

Cogview2：更快更好的文生图分层Transformer模型

摘要

公告

赏月斋

慎终如始 宁静致远

Cogview2：更快更好的文生图分层Transformer模型

摘要

公告

慎终如始宁静致远