2022.44 AI在视觉领域进展

最近几年，AI 在视觉领域的发展可谓是“神速”。

去年1月，致力于“用通用人工智能造福全人类”的OpenAI公司基于GPT-3模型发布了划时代的 DALL·E，实现了从文本生成图像。今年4月份，OpenAI发布的第二代DALL·E 2模型，再次为图像生成领域树立了全新标杆，可以通过简短的文本描述（prompt）来生成相应的图像，使得不会画画的人也可以将自己的想象力变为艺术创作，随着文字描述的颗粒度不断细化，生成的图像也会越来越精准，效果在非专业人士看来已经相当震撼。

但DALL-E 2这样的模型仍然停留在二维创作即图片生成领域，无法生成360度无死角的3D模型。Google Research的一项最新成果——DreamFusion模型，即可通过输入简单的文本提示生成3D模型，不仅能够在不同的光照条件下进行渲染，而且生成的3D模型还具有密度、颜色等特性，甚至可以把生成的多个3D模型融合到一个场景里。

之后，Meta的算法人员将思路进一步打开，向更高难度发起挑战，开始探索用文字提示来直接生成视频。相比于生成图像，用文字来生成视频时不仅需要生成相同场景下的多个帧，还要保证相邻帧之间的连贯性，训练模型时可用的高质量视频数据非常少，但计算量却很大，大大增加了视频生成任务的复杂性。9月29日，来自Meta的研究人员发布了Make-A-Video，这是一个基于人工智能的高质量短视频生成模型，相当于视频版的DALL·E，也被戏称为“用嘴做视频”，即可以通过文本提示创建新的视频内容，其背后使用的关键技术也同样来自DALL-E等图像生成器所使用的文本-图像合成技术。

1周之后，谷歌CEO皮查伊就接连官宣了两个模型来正面挑战Meta的Make-A-Video，分别是Imagen Video与Phenaki。与Make-A-Video相比，Imagen Video更加突出视频的高清特性，能生成1280*768分辨率、每秒24帧的视频片段，还能理解并生成不同艺术风格的作品；理解物体的3D结构，在旋转展示中不会变形；甚至还继承了Imagen准确描绘文字的能力，在此基础上仅靠简单描述产生各种创意动画。而Phenaki则能根据200个词左右的提示语生成2分钟以上的较低分辨率长镜头，讲述一个相对完整的故事。

出于安全和伦理的考虑，谷歌表示暂时不会发布两个视频生成模型的代码或Demo。Meta也承认，按需制作真实感视频的能力存在一定的社会危害，因此将所有由AI生成的视频内容都加上了水印，以“确保观众知道这段视频是由人工智能生成的，而不是捕捉到的视频。”通常情况下，传统理论认为，作为智力活动的创作只能由人类的思维活动来实现，即作品是自然人思想观念的表达。但在人工智能时代，这一理论将会受到重大挑战，人们也需要重新思考与之相关的新标准、新道德、新法规。

在计算机视觉领域中，文本生成图像或视频用到最多的就是生成模型，生成模型也在最近的文本到图像 AI 系统中取得了重大进展，比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion等。这些新模型和算法的基本思路都来自于早期最出名的GAN(生成对抗网络)，即通过生成器和辨别器之间的相互对抗来生成图像。但由于模型本身具有对抗性，因此很难进行训练，而利用扩散模型则可以解决这个问题，这也是今年最火的模型之一。扩散模型在密度估计、文本到语音、图像到图像、文本到图像和 3D 合成等多种生成式建模任务中都取得了巨大成功。

posted on 2022-10-29 10:19 时间朋友阅读(310) 评论(0) 收藏举报

刷新页面返回顶部

2022.44 AI在视觉领域进展

导航