文生视频大模型
简介
Sora 官网地址:https://openai.com/sora
文生视频指的是将文本描述转化为视频内容的技术,2024年2月15日 OpenAI 正式对外发布 Sora 人工智能模型,在人工智能领域掀起了一场风波,这是计算机视觉领域的一个突破。
Sora 这一名称起源于日文中“空”的含义,暗示了其具备的无限潜力。OpenAI 也在报告中将 Sora 定义为 “word simulators” 即世界模型或者世界模拟器,可见 OpenAI 对于 sora 的能力具备足够的信心。
注意:个人暂时无法体验。
Sora 的能力
Sora 是一种扩散模型,旨在对语言更深入的理解,使得模型能够准确的识别出文本的含义,OpenAI 官方表明 Sora 能够生成1分钟的高清视频,并且给出了一个视频生成的示例,该示例展示出了 Sora 根据文本内容所生成的一段视频信息:
- 提示文本:一个时髦的女人走在东京的街道上,街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着黑色的皮夹克,红色的长裙和黑色的靴子。
- 视频地址
可以看出,Sora根据文本所产生的视频完美地展示了文本所表达的含义,并且视频的质量非常出色。除了描述的主体内容外,视频还展示了与天气和时间相关的光影效果,增添了画面的层次和真实感。
Sora 除了根据文本生成视频,还可有以下几种生成视频的方式:
- 图像生成视频:
-
- 图像
- 视频
- 扩展生成的视频:
-
- 视频1
- 视频2
- 改变视频风格:
-
- 改变前
- 改变后
- 连接视频:
-
- 视频1
- 视频2
- 连接后
扩展能力
3D 一致性
Sora 还可以在单个生成的视频中创建多个镜头,准确地保留视频主体和视频的风格,使得视频主体可以跟随环境的变化而一同变化。
如下这个视频所示,视频从头到尾都围绕着两个人物,当周围场景变换时,两个主体人物也随之自然地调整位置和距离。在切换回大远景时,视频的主题也会自然地从人物转换为城市景观,完美地保持了连贯性和流畅度。
视频地址
远程相干性和物体持久性
Sora 也有处理空间物体依赖性的能力,保持物体在短视频或长视频中的空间关系,如下图所示,虽然场景在不断的进行,但是窗边的斑点狗并不会因为人物的穿行而消失或者覆盖人物。
视频地址
与世界交互性
Sora 还可呈现出视频中物体的变化状态,如下图所示,在被咬过的汉堡上能够成功的出现咬掉的痕迹:
视频地址
Sora 的局限性
- 不能准确模拟许多基本相互作用的物理过程。
- 与物体的交互并不总是产生对象状态的正确变化。
- 混淆提示空间细节,例如混淆左右。
现状
文生视频还处在开发并且测试的阶段,基于安全考虑,目前 Sora 还是仅仅是邀请 “red teamers” 也就是对抗性角色领域的专家来对 Sora 进行安全测试。
并且还会和各个领域的政策制定者,避免 Sora 技术的滥用和可能带来的不良影响。
总结
-
了解 Sora 的能力。
-
了解 Sora 的局限性。
-
了解 Sora 的安全问题。
推荐学习
【霍格沃兹测试开发】7天软件测试快速入门带你从零基础/转行/小白/就业/测试用例设计实战
【霍格沃兹测试开发】最新版!Web 自动化测试从入门到精通/ 电子商务产品实战/Selenium (上集)
【霍格沃兹测试开发】最新版!Web 自动化测试从入门到精通/ 电子商务产品实战/Selenium (下集)
【霍格沃兹测试开发】明星讲师精心打造最新Python 教程软件测试开发从业者必学(上集)
【霍格沃兹测试开发】明星讲师精心打造最新Python 教程软件测试开发从业者必学(下集)
【霍格沃兹测试开发】精品课合集/ 自动化测试/ 性能测试/ 精准测试/ 测试左移/ 测试右移/ 人工智能测试
【霍格沃兹测试开发】腾讯/ 百度/ 阿里/ 字节测试专家技术沙龙分享合集/ 精准化测试/ 流量回放/Diff
【霍格沃兹测试开发】Pytest 用例结构/ 编写规范 / 免费分享
【霍格沃兹测试开发】JMeter 实时性能监控平台/ 数据分析展示系统Grafana/Docker 安装
【霍格沃兹测试开发】接口自动化测试的场景有哪些?为什么要做接口自动化测试?如何一键生成测试报告?
【霍格沃兹测试开发】面试技巧指导/ 测试开发能力评级/1V1 模拟面试实战/ 冲刺年薪百万!
【霍格沃兹测试开发】腾讯软件测试能力评级标准/ 要评级表格的联系我
【霍格沃兹测试开发】Pytest 与Allure2 一键生成测试报告/ 测试用例断言/ 数据驱动/ 参数化
【霍格沃兹测试开发】App 功能测试实战快速入门/adb 常用命令/adb 压力测试
【霍格沃兹测试开发】阿里/ 百度/ 腾讯/ 滴滴/ 字节/ 一线大厂面试真题讲解,卷完拿高薪Offer !