去魅Sora

其实现原理非常像之前学的图像压缩的兄弟——视频压缩：

VAE Encoder（变分视频压缩，将其压缩到低维的隐空间中降低计算量）借用Google DeepMind的NaViT (2023.07) 支持了原始比例和分辨率，从而使其采样灵活并提高取景构图能力。
Transform Diffusion （从视频数据中学习分布，并根据条件生成新视频）借用OpenAI DALL-E 3 (2023.09) 里的图像描述方案生成了高质量Video Caption（视频描述），即文本-视频对，这使 Sora 能够准确遵循用户提示生成高质量的视频。
VAE Decoder （视频解压缩）

与单纯的视频压缩不同的是，他把视频内容分块，并且为每一块内容映射了语义（似乎包括大量的视频解说），并根据视频对应的语义去生成新视频，这样就达成了AI模型“理解”提示条件，并生成视频内容的效果。

Sora获得如此高质量的视觉生成效果，像官方文档说的：使用互联网规模的数据，大量不同比例、分辨率的视频，以及大量的解说视频和为视频生成的描述性文本（GPT——Vision标注）。

参考：
Sora官方技术文档
https://openai.com/research/video-generation-models-as-world-simulators
红博士说 https://mp.weixin.qq.com/s/H8UYQ27nNPbW2jetseJgYQ

posted @ 2024-02-28 16:12 浪矢-CL 阅读(23) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· Sora文本生成视频模型

· a new idea

· Open Sora 发布！开源的高效复现类 Sora 视频生成方案

· 视频生成-OpenAI Sora

· Sora初探

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统
· 【译】Visual Studio 中新的强大生产力特性
· 2025年我用 Compose 写了一个 Todo App

公告

昵称：浪矢-CL
园龄： 8年1个月
粉丝： 9
关注： 12

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:洛谷 B3647 【模板】Floyd 算法
重边没取min
--udiandianis
2. Re:最长公共子序列-lcs
能讲一下思路吗?
--Ricnard
3. Re:P1664 每日打卡心情好
@Charlie328 ???...
--wang者归来
4. Re:P1664 每日打卡心情好
#include<cstdio> #include<cmath> int main() { int n,t=0,a,d=0,m=0; //n:有n天 t:分数 a:只是存是否打卡的 d是累计天数 m是...
--Charlie328
5. Re:P1004 方格取数
@ 博客爱好者题目要求不同。...
--wang者归来