去魅Sora
其实现原理非常像之前学的图像压缩的兄弟——视频压缩:
- VAE Encoder(变分视频压缩,将其压缩到低维的隐空间中降低计算量) 借用Google DeepMind的NaViT (2023.07) 支持了原始比例和分辨率,从而使其采样灵活并提高取景构图能力。
- Transform Diffusion (从视频数据中学习分布,并根据条件生成新视频) 借用OpenAI DALL-E 3 (2023.09) 里的图像描述方案生成了高质量Video Caption(视频描述),即文本-视频对,这使 Sora 能够准确遵循用户提示生成高质量的视频。
- VAE Decoder (视频解压缩)
与单纯的视频压缩不同的是,他把视频内容分块,并且为每一块内容映射了语义(似乎包括大量的视频解说),并根据视频对应的语义去生成新视频,这样就达成了AI模型“理解”提示条件,并生成视频内容的效果。
Sora获得如此高质量的视觉生成效果,像官方文档说的:使用互联网规模的数据,大量不同比例、分辨率的视频,以及大量的解说视频和为视频生成的描述性文本(GPT——Vision标注)。
参考:
Sora官方技术文档
https://openai.com/research/video-generation-models-as-world-simulators
红博士说 https://mp.weixin.qq.com/s/H8UYQ27nNPbW2jetseJgYQ
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统
· 【译】Visual Studio 中新的强大生产力特性
· 2025年我用 Compose 写了一个 Todo App