Sora、Pika文生视频模型对比

OpenAI 重磅发布文生视频模型 Sora,Sora在视频时长与视觉效果等方面相较于 Pika、Runway 等主流文生视频工具有了极大幅度的提升。具体来看,Sora 生成的视频具有超长时长、世界模型、多镜头切换的三大特性:

1)超长时长

Sora 可生成长达一分钟的高清视频,而此前 Pika、Runway 等模 型生成的视频时长仅在 20s 以内,在视频时长大幅提升的同时,视频具有连贯性,即使人物和其他场景元素被暂时遮挡或离开视野,仍能保持一致性

 

2)世界模型

Sora 不仅能够深入理解用户提示,还学会了物理世界的部分规律, 比如一个人吃汉堡后会留下咬痕、火车车窗上会产生逼真的倒影,而 Runway 等模型的拟真程度则相对较弱;

 

3)多镜头切换

Sora 可在单个视频中设计出多个镜头,并且能在多角度的镜头切换中,实现角色和视觉风格的一致性,而 Runway 等绝大部分模型只能生成单镜头视频。

 

相较于此前的视频生成模型,Sora 在底层模型和算法上的创新点主要体现在以下三个方面:

 

1)采用 Transformer 架构的扩散模型

不同于 Runway Gen1、Stable Video Diffusion 等扩散模型主要采用经典的 U-Net 架构,Sora 用 Transformer 架构替 换 U-Net 架构,大幅提升模型扩展性;

 

2)训练视频数据保持原始大小

 不同于其他视频生成模型通常预先将视频调整、 裁剪或修剪为标准大小,例如裁剪为分辨率为 256×256 的 4s 视频,Sora 在原 始大小的数据上进行训练,一方面数据采样更灵活,可以对宽屏 1920×1080p 视频、垂直 1080×1920 视频以及介于两者之间的所有视频进行采样,这使 Sora 可以直接以原始宽高比为不同设备创建内容,另一方面可以改善构图和取景,在 经过方形裁剪后的视频上训练的模型有时主体仅部分可见,而 Sora 生成的视频 取景得到了明显改善;

 

3)为训练视频生成详细的文字描述

其他文生视频模型通常在大型文本-视频对 数据集上进行训练,而Sora采用了DALL·E3和GPT的研究成果,通过为视频 训练数据生成或补充详细的字幕描述,提升训练效果,使模型预测更准确。

 

目前 Sora 仍存在一定局限性,包括无法模拟复杂场景的物理特性、难以理解特 定场景下的因果关系、误解用户提示中的空间细节信息,有待于后续的进一步 完善和提升。目前 Sora 模型已向部分专家开放,以评估潜在的风险,同时也正 在向部分设计师、电影制作人、视觉艺术家等授予访问权限,以获得使用反馈。

posted @ 2024-02-18 14:25  邴越  阅读(242)  评论(0编辑  收藏  举报