2022.44 AI在视觉领域进展
1周之后,谷歌CEO皮查伊就接连官宣了两个模型来正面挑战Meta的Make-A-Video,分别是Imagen Video与Phenaki。与Make-A-Video相比,Imagen Video更加突出视频的高清特性,能生成1280*768分辨率、每秒24帧的视频片段,还能理解并生成不同艺术风格的作品;理解物体的3D结构,在旋转展示中不会变形;甚至还继承了Imagen准确描绘文字的能力,在此基础上仅靠简单描述产生各种创意动画。而Phenaki则能根据200个词左右的提示语生成2分钟以上的较低分辨率长镜头,讲述一个相对完整的故事。
出于安全和伦理的考虑,谷歌表示暂时不会发布两个视频生成模型的代码或Demo。Meta也承认,按需制作真实感视频的能力存在一定的社会危害,因此将所有由AI生成的视频内容都加上了水印,以“确保观众知道这段视频是由人工智能生成的,而不是捕捉到的视频。”通常情况下,传统理论认为,作为智力活动的创作只能由人类的思维活动来实现,即作品是自然人思想观念的表达。但在人工智能时代,这一理论将会受到重大挑战,人们也需要重新思考与之相关的新标准、新道德、新法规。
在计算机视觉领域中,文本生成图像或视频用到最多的就是生成模型,生成模型也在最近的文本到图像 AI 系统中取得了重大进展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion等。这些新模型和算法的基本思路都来自于早期最出名的GAN(生成对抗网络),即通过生成器和辨别器之间的相互对抗来生成图像。但由于模型本身具有对抗性,因此很难进行训练,而利用扩散模型则可以解决这个问题,这也是今年最火的模型之一。扩散模型在密度估计、文本到语音、图像到图像、文本到图像和 3D 合成等多种生成式建模任务中都取得了巨大成功。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
2021-10-29 2021.43 锂电池之父
2019-10-29 鲍勃·马丁的誓言
2018-10-29 云-边-端一体化的计算新格局
2017-10-29 2017第43周日
2016-10-29 2016第44周六
2015-10-29 linux远程管理工具
2014-10-29 第44周三