"虫二"的人工智能----顾险峰---赛先生的
"虫二"的人工智能
精选
艺术创作一直是人类精神活动的最高级形式,自古以来,人们认为只有人类的智慧才能真正领悟艺术作品的深远意境和奥妙神韵,玄而又玄的艺术风格更是只可意会,不可言传。近些年来,机器视觉和人工智能的发展正在将艺术拉下神坛,几乎人类智能的一切领域都正在被人工智能所解构和颠覆。可以毫不夸张地说,人工智能似乎很快就能够达到“虫二”(风月无边)的境界。
在视觉艺术领域,抽象的艺术风格已经可以被严密数学化,并且可以被提取、变换和转移。一幅艺术作品,其内容(content)和风格(style)紧密缠绕在一起,似乎是密不可分的,但是两者又是相对独立的。如何将内容和风格相剥离,如何各自表示,如何将不同艺术作品的内容和风格有机结合,这些都是玄妙而又基本的问题。我们考察一些近期刚刚发展起来的巧妙算法,看看它们是如何建模并解决这些问题的。
最优传输方法[1]
我们考察下面两张图。图像 1 是山脚下牧场的田园风光,苍松翠柏,绿草茵茵,艳阳高照,生机盎然;图像 2 是古老庄园中的林荫道,午后斜阳,遍地碎金,藤萝蔽日,虬枝遮天。第一幅图像似乎摄于春夏,洋溢着勃勃生机;第二幅图像似乎是深秋日暮,没落抑郁。如果将第一幅图像的内容和第二幅图像的风格相结合,我们得到第三幅图像,深秋山脚下的牧场,残阳如血,山林如炬,凄艳欲绝,离恨顿生。
图1 输入图像
图2 示例图像
图3 图像1的内容 + 图像2的风格
人类的感知都是基于概率的。这种方法将摄影风格抽象为色彩的概率分布。每个像素的颜色表示成颜色空间的一个点 (红、绿、蓝)。每幅图像颜色的直方图(Histogram) 给出了颜色分布的概率分布函数(PDF)。
图4 颜色分布概率密度函数。第三幅图像是第一幅的内容加上第二幅的风格。
我们将颜色空间表示成一个三维的正方体Ω,牧场图像的颜色分布概率密度函数是,庄园图像的颜色分布概率密度函数是
。我们希望将牧场图像的颜色变换成庄园图像的颜色,就是说我们寻求一个颜色空间的微分自同胚
,满足如下条件:牧场图像中n个像素映到庄园图像中n个像素,换言之,所求颜色空间自同胚应该保测度:假设
是任意可测集合,则
;
同时,我们希望颜色的变化尽量小,这等价于优化如下的传输距离
。
根据最优传输理论[6],最优自同胚是某一凸函数
的梯度映射
,凸函数满足蒙日-安培方程
。
陈省身曾经说过蒙日-安培方程是最为非线性的偏微分方程。最近,丘成桐团队给出基于变分法的构造性解法[5]。
将视觉图像的艺术风格理解为色彩空间的概率分布,想法虽然简单,但是很多时候卓有成效。
频谱能量密度[2]
下图是将一幅随意的摄影相片转换成不同风格的肖像作品的示例。首先在输入相片和样本相片之间建立映射,然后将相片进行类似小波变换,转换成所谓的拉普拉斯堆栈(Laplace Stack)。在频率域,计算每个频段的能量密度函数。将输入图片的每个频段的能量密度函数加以调整,使得其和样本图片的能量密度函数大致吻合。最后施行逆变换,得到输出图像。
图5. 不同风格的人物肖像自动生成。
这种方法可以改变图像的颜色、对比度、光照、散聚焦、同时保留表情、姿态、形状、透视和焦距。这种方法将艺术风格理解为多尺度下的图像局部统计特性,特别是局部对比度的统计特性。第一种方法只是做了全局的统计,丢失了多尺度和局部统计信息。但是,这种方法需要输入图像和样本图像比较接近,因此局限性较大,不如最优传输法灵活。
深度学习法[3]
人类的视觉计算是一个非常复杂的过程。如图 6 所示,在大脑皮层上有多个视觉功能区域(v1 至 v5等),低级区域的输出成为高级区域的输入。低级区域识别图像中像素级别的局部的特征,例如边缘折角结构,高级区域将低级特征组合成全局特征,形成复杂的模式,模式的抽象程度逐渐提高,直至语义级别。
如图 7 所示,我们可以毫不费力地辨认出左帧是奥巴马的肖像,右帧是一只兔子的白描。其实,图中大量信息丢失,但是提供了足够的整体模式。由此可见,视觉高级中枢忽略色彩、纹理、光照等局部细节,侧重整体模式匹配和上下文关系,并可以主动补充大量缺失信息。
图6. 大脑皮层的视觉中枢,视觉信号的传导途径:视网膜,LGN, V1, V2, V3, V4, V5 等。
图7. 高级视觉中枢忽略细节,识别主要模式,主动补充缺失信息。
深度学习的卷积神经元网络(CNN)是模拟人脑视觉中枢的一种算法框架。神经元网络有许多层,每层网络模拟一个视觉功能区域,完成在特定抽象程度级别的特征提取或整合。这里,德国科学家们使用了一个经过充分训练过的CNN,CNN的设计目的是进行一般物体识别[4]。神经网络的识别算法非常鲁棒,同一类物体,具有不同的颜色,纹理,视角,光照条件,头可以被准确识别出来。这意味着神经网络忽略了图像的“风格”,牢牢地抓住了图像的“内容”。因此,图像的内容被表示成神经元网络以此图像为输入时各层的激活响应(activation,亦即各层的所有输出)。(,在第l层中,第i个滤波器在第j个位置的响应)。我们如果从
来重构图像,则基于低层响应重构的图像非常接近原始图像;基于高层响应重构的图像保持了正确的整体结构,但是纹理颜色等局部细节都是错乱的。图像的“风格”被每个层中各个特征之间的相关性所刻画,
。利用
来重构图像,当层数较低时,得到的图像保持了原始图像小尺度的风格;当层数较高时,得到的图像保持了原始图像大尺度的风格,但是整个场景的全局安排却是错乱的。
如果我们有两张图片,分别用卷积神经网络来分解得到内容和风格,然后,我们可以将其风格的表示互换,重构图像,这样就实现了“内容保持,风格变换”的图像。这里,我们展示一些计算结果:
如上几个例子不容置疑地展现了人工智能的方法可以分离艺术内容和艺术风格,并且能够恰切地表示内容和风格,自如地转换合成艺术风格。虽然计算机的能力令人惊艳,但是今天最终艺术作品的审美和评判依然不可替代地由人类来完成。那么,是否会在不远的将来,人类的审美能力也会被量化,由数学公式精确地推演,最终由人工智能来越俎代庖呢?人工智能真地能够达到“虫二”的境界吗?我们人类是应该对此期待还是恐惧?
参考文献
[1] Nicolas Bonneel, Michiel van de Panne, Sylvain Paris, Wolfgang Heidrich, Displacement Interpolation Using Lagrangian Mass Transport, ACM TOG, 30(6), SIGGRAPH ASIA, 2011.
[2] YiChang Shih, Sylvain Paris, Connelly Barnes , William T. Freeman, Fredo Durand, Style Transfer for Headshot Portraits, ACM TOG, 33(4), SIGGRAPH, 2014.
[3] Leon A. Gatys, Alexander S. Ecker, Matthias Bethge, A Neural Algorithm of Artistic Style, arXiv:1508.06576v1.
[4] https://github.com/jcjohnson/neural-style.
[5] Xianfeng Gu, Feng Luo, Jian Sun and Shing-Tung Yau, Variational Principles for Minkowski Type Problems, Discrete Optimal Transport, and Discrete Monge-Ampere Equations, Asian Journal of Mathematics (AJM), 2015.
[6] Gabriel Peyre, An Introduction to Optimal Transport, www.numerical-tours.com.
TOOLz
每一个不曾起舞的日子,都是对生命的辜负。
But it is the same with man as with the tree. The more he seeks to rise into the height and light, the more vigorously do his roots struggle earthward, downward, into the dark, the deep - into evil.
其实人跟树是一样的,越是向往高处的阳光,它的根就越要伸向黑暗的地底。----尼采
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话