视频生成领域的发展概述:从多级扩散到LLM

2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。

在这篇文章中,我们将整理视频生成在最近几年是发展概况,模型的架构是如何发展的,以及现在面临的突出问题。

我们以时间轴看作是一个观察视频生成模型演变的旅程。这将帮助我们理解为什么模型是这样设计的,并为未来的研究和应用工作提供见解。

https://avoid.overfit.cn/post/6242680847f94e6b8ef3eb2217ce1f89

posted @   deephub  阅读(32)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2023-02-20 使用PyTorch-LSTM进行单变量时间序列预测的示例教程
2022-02-20 可视化深度学习模型架构的6个常用的方法总结
点击右上角即可分享
微信分享提示