2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
Diffusion Models
1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
LlamaGen,是一个新的图像生成模型,它将原始的大型语言模型的“下一个标记预测”范式应用于视觉生成领域。传统的自回归模型,如Llama,在视觉信号上没有归纳偏差,如果适当缩放,可以达到最先进的图像生成性能。论文LLM服务框架在优化图像生成模型的推理速度方面的有效性,并实现了326% - 414%的加速。
https://avoid.overfit.cn/post/d279d7b4b6c14bbb91de0d8fd786ecd8