视频生成领域的发展概述:从多级扩散到LLM

2023年是语言模型(llm)和图像生成技术激增的一年，但是视频生成受到的关注相对较少。今年刚到2月份，OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露，但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。

在这篇文章中，我们将整理视频生成在最近几年是发展概况，模型的架构是如何发展的，以及现在面临的突出问题。

我们以时间轴看作是一个观察视频生成模型演变的旅程。这将帮助我们理解为什么模型是这样设计的，并为未来的研究和应用工作提供见解。

https://avoid.overfit.cn/post/6242680847f94e6b8ef3eb2217ce1f89

posted @ 2024-02-20 12:06 deephub 阅读(68) 评论(0) 收藏举报

刷新页面返回顶部