Runway官宣下场通用世界模型！解决视频AI最大难题，竟靠AI模拟世界？

前言 Runway突然发布公告，宣称要开发通用世界模型，解决AI视频最大难题，未来要用AI模拟世界。

本文转载自新智元

仅用于学术分享，若侵权请联系删除

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

最近AI视频赛道的Pika 1.0大火，两位华人创始人团队半年做出的产品几乎碾压了Runway接近两年的发展成果。面对Pika的步步紧逼，本以为Runway会发力，想办法至少在公关上扳回一城，结果Runway的应对策略是宣布：我不和你们卷，我的目标是星辰大海。

Runway官方今天突然官宣，我们要做通用世界模型（General World Model），用Gen AI来模拟整个世界！

通用世界模型（GWM）

我们相信，人工智能的下一个重大进步将来自理解视觉世界及其动态的系统，这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。

世界模型是一种对环境有着内部理解的AI系统。它可以利用自己对环境的理解来模拟该环境中未来可能发生的事件。迄今为止，世界模型的研究主要局限于非常有限和受控的环境中，比如在视频游戏般的模拟世界或者是像驾驶这样的特定领域。而通用世界模型的目标则是要能够呈现和模拟出像现实世界那样广泛和多样的情景及互动。在Runway看来，像Gen-2这样的视频生成系统，可以被看作是通用世界模型的非常初步和有限的版本。为了能生成逼真的短视频，Gen-2需要某种程度上理解物理和动态。但是，它在处理复杂的摄像机运动或物体运动等问题上仍然存在局限性。为了构建真正的通用世界模型，我们面临着许多尚未解决的研究挑战。其中之一是这些模型需要能够生成一致的环境地图，并具备在这些环境中导航和互动的能力。它们不仅需要捕捉世界的动态变化，还要能够理解其中居民的行为动态，这就需要构建接近现实的人类行为模型。我们正在组建一个团队来应对这些挑战，如果你对加入我们的研究工作感兴趣，我们非常期待你的加入。

针对Runway的这个世界模型宣言，从小了讲，我们可以把它翻译为：现在我们的AI生视频系统，生成的视频会有很多匪夷所思的内容，比如这样：

这样，

甚至是这样：

就像LLM会产生幻觉，信口胡诌一些不存在的内容一样，生视频AI因为没有办法理解现实世界，同样也会生成很多诡异的运动方式和画面。而面对这个情况，Runway我似乎没有太好的解决办法，所以现在需要招聘一些人来解决这个问题。说白了就是让AI能够理解客观世界，并且按照客观世界的运动和发展规律来生成视频。而如果从大了讲，而如果你能帮我们解决这个问题，我Runway就不仅仅是能做个AI生成视频的工具，而是能按照客观世界的原理和规律来生成一个和我们现实世界高度一致的新世界。在这个新世界中，我们可以模拟一切现实世界可能可以发生的事情。如果AI能有了这样的能力，将会在很多地方都有应用的场景和可能，我们就能干一些更大的事情。至于Pika？他们不是说就想做一个拍电影的工具嘛，和我们根本不是一个赛道。