OpenAI最新发布的文生视频模型Sora到底强在哪?
2024年2月16日,当大家沉浸在过年的喜庆氛围中,OpenAI发布首款文生成视频大模型 Sora ,其炸裂登场让人感到惊艳。
Sora官网介绍:https://openai.com/sora
说起文生视频工具,比如Runway、Pika,用户输入文字就能得到一段几秒到十几秒的视频内容,但因为效果一般,并未被广泛使用。
1.Sora到底强在哪?
此次Sora能够爆火出圈,实在是因为它过于优秀。同样是用户输入提示文字,Sora生产的视频不仅质量高,场景还很逼真丝滑、细节丰富。
其一,Sora可生成60s超长视频。相较于Runway MLGen-2、Pika等文生视频大模型,Sora可生成一镜到底的逻辑顺畅视频,主人物及背景人物均非常稳定,文生视频大模型能力突出。
其二,Sora多角度视频一致性。Sora可以在单个生成视频中创建多个镜头,以准确保留角色和视觉风格。OpenAI官网发布的Demo视频中,有多角度镜头,且主人物保持了完美的一致性。
其三,Sora在尝试理解物理世界。根据OpenAI官网披露,Sora不仅可以理解用户的描述要求,同时亦尝试理解描述的事物在物理世界中的存在方式(即物理规律)。根据OpenAI官网Demo视频中,汽车在山路行驶中的颠簸等动作符合物理世界规律,视频逼真程度进一步提升。
Sora可以用简单的方式模拟影响世界状态的行为。例如,随着时间的推移画家可以在画布上留下新的笔触,或者一个人吃汉堡时留下咬痕。
其四,图像生成功能。Sora还能生成图像,通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像,最高可达2048 × 2048分辨率。
其五,模拟数字世界。Sora还能够模拟人工过程,比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。
2. 不足
Sora官方也指出自己的模型存在的不足和局限性
它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。
可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。
还会混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的摄像机轨迹。
3. 结尾
从Runway MLGen-2、Pika到Sora,文生视频大模型频出,视频长度从3~4秒到60秒,模型对物理世界的理解愈加接近现实,已经具备商业化落地价值,创作内容产业革命来临,AIGC新时代已至。
这意味着什么?以后哪怕普通人,只要具有丰富的想象力,能够将脑海里的画面准确地描述出来,那么就能生成相应的画面视频,甚至是独立创作出一部电影。想想都很震撼!!!
每次技术的革新,总是惊喜与恐惧并存
恐慌无用的话,不如尽力拥抱
”与时俱进“不应该是一句口号,”拥抱变化“也不应该是一句鸡汤
你可以不屠龙,但不能不磨刀。