视频生成领域的发展概述:从多级扩散到LLM

2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。

在这篇文章中,我们将整理视频生成在最近几年是发展概况,模型的架构是如何发展的,以及现在面临的突出问题。

我们以时间轴看作是一个观察视频生成模型演变的旅程。这将帮助我们理解为什么模型是这样设计的,并为未来的研究和应用工作提供见解。

https://avoid.overfit.cn/post/6242680847f94e6b8ef3eb2217ce1f89

posted @ 2024-02-20 12:06  deephub  阅读(28)  评论(0编辑  收藏  举报