Fork me on GitHub

Cogview2:更快更好的文生图分层Transformer模型

摘要

由于生成高分辨率图像较为缓慢且复杂,基于Transformer的文本到图像模型的发展阻碍。在这项工作中,研究者提出了一种基于分层Transformer和局部并行自回归生成的解决方案。研究者预训练了一个60亿参数的transformer模型,采用简单灵活的司监督任务、跨模态通用语言模型(CogLM),并通过微调实现快速超分辨率生成。Cogview2相比DALL·E-2具有非常竞争力的乘车结果,并天然支持对图像进行交互式的文本引导编辑。

论文链接:https://arxiv.org/abs/2204.14217

posted @   stardsd  阅读(644)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
历史上的今天:
2017-05-31 IaaS,SaaS,PaaS的区别
点击右上角即可分享
微信分享提示