虚拟几何纹理(上)
虚拟几何纹理(上)
关于几何学
麻省理工人工智能实验室学习Berthold Horn教授的“机器视觉”课程。Horn教授以“shape from shading”方法驰名天下,他在课堂上亲口讲授了如何用偏微分方程来描述成像过程,通过求解双曲方程来从图像反解几何。他提出用高斯曲率来表示凸曲面的扩展高斯映射方法。这一方法其实等价于微分几何中的闵可夫斯基(Minkowski)问题。通过学习Horn教授的课程,当时计算机视觉的研究方法与经典物理方法相类似,用微分方程来描述自然现象,通过解析方法求得答案。Minkowski问题,任意维Minkowski问题解的存在性和唯一性,蒙日-安培(Monge-Ampere)方程的算法。
蒙日-安培方程的理论非常艰深,即便能够求解Minkowski问题,这种方法只能表达凸曲面,适用范围过于狭窄,因此不值得大费周章。基础科学家与工程学者的价值观念具有巨大的区别。数学家终身追求的是大自然至善至纯的真理,美轮美奂的几何结构,而很少考虑近期人类社会的应用;应用工程学者追求的是切实可用的技术,而非长远玄虚的理论。数十年来,通过亲身实践,体会到自然结构带来的强烈精神享受,超越世俗的永恒与和谐;也体会到技术进步带来的巨大震撼,和对物质强有力的掌控感。培育的博士生中,也是各有自身的价值标准,和审美倾向。
1995年的计算机视觉研究方式大量依赖于几何和偏微分方程方法,但是那时芒福德教授和朱松纯教授对于Horn的研究方法提出了批评。Horn 的方法(以及当时其它的 shape-from-X 方法)中能量函数的都是人为地手工设定的,或者根据物理原理来定义的, 不能反映现实世界中物体的形状和表观的复杂性, 因此质疑这种方法的实用性。他们提出应该用统计方法来研究视觉,通过从真实图像中的统计特征,用最大熵方法自动”学习“ 出能量函数的结构和形式, 也就是首次提出来用数据来决定模型的形式,并且真正系统地用统计为计算机视觉的发展奠定了理论框架。当时,视觉领域几乎很少有人具有如此前瞻的想法,朱松纯希望放弃微分几何的想法,用统计方法做研究。当他讲到他们正在创建的统计视觉理论框架时,双眼发亮,激情难抑,“这就是一座金矿”!朱教授的战略思想超越时代,发展过程中也是历经曲折。在机器学习处于萌芽状态的时候,在多次私下交谈里沈向洋老兄胸有成竹地预言机器学习将会大行其道,也是极具前瞻性。依随网络的发展,海量数据的积累成为现实,硬件算力迅猛提高,统计学习方法终于乘风而起。25年后,计算机视觉领域,偏微分方程的解析方法日益被边缘化,统计学习、深度学习方法几乎一统天下。
历史的螺旋
但是,历史发展的模式总是否定之否定,各个学科都在螺旋上升。近些年来,深度学习方法狂飙突进,如日中天,横扫计算机科学几乎所有领域。以前,人们为了描述一个自然物理现象,前仆后继,历经数代人努力建立了偏微分方程,无数数学家为了证明解的存在性、唯一性、正则性、稳定性,呕心沥血,苦心求索。但是在目前的深度学习框架下,可以将偏微分算子看成是特定函数空间中的可逆映射,即初值条件和解之间存在因果关系,那么就可以用深度神经网络去逼近这个可逆映射。这种所谓端到端的学习,省略了人类的智力加工和深刻理解这一过程,技术的进步可能带来普通人类成员智力的退化。
从基础理论层面来看,各种知识、数据规律在深度学习框架下都被表示成为概率分布,深度学习的核心目标是学习各种各样的概率分布。因此,深度学习本质上是在所有可能的概率分布组成的无穷维空间中做优化。例如传统的极大似然估计,最大后验概率,最大熵原则等等,都归结为概率空间的优化问题。那么,需要为这个由概率分布组成的无穷维空间建立拓扑,建立微积分。更为严谨的,假设X是底空间,它可以是欧氏空间的子集,也可以是一个黎曼流形,或者抽象的距离空间等等,其上所有可能的概率测度构成的空间为P(X)。需要定义P(X)的拓扑,如此才能谈论一族概率测度的收敛性,例如一个计算方法得到的离散概率测度如何收敛到真解;需要定义P(X)中的距离,如此才能衡量两个概率分布之间的异同,例如GAN中判别器计算生成概率和真实概率之间的距离;需要定义P(X)中的测地线,如此才能预测一个统计系统的行为,例如在通常情况下,熵会自然增大,那么所有时刻的概率分布构成了P(X)空间中的一条轨迹,通常的热力学扩散对应着P(X)中的一条测地线;需要定义绝对微分,如此才能在P(X)中做优化,例如带有高斯噪声的最大似然法本质上是在P(X)空间中极小化熵正则化的Wasserstein能量。
以上的讨论意味着,为了将深度学习奠定理论基础,需要从黎曼几何的角度来研究所有概率组成空间P(X),厘清概率空间P(X)的测地线、黎曼度量、平行移动、绝对微分等基本概念,发展概率空间的几何变分法。从这个角度来看,计算机视觉统计方法的发展又回归到无穷维黎曼几何的框架。而概率空间P(X)的黎曼几何就是最优传输理论,而最优传输理论的核心偏方程之一就是蒙日-安培方程。丘先生25年前教会我的第一个算法就是求解蒙日-安培方程!历史再一次证明基础数学的前瞻性。丘先生曾经多次教诲:大自然的规律与人类经济政治无关,人类文明的真正进展是植根于对自然结构的深刻理解之上。
几何纹理概念
在计算机图形学的传统中,几何曲面用三角网格来表示,如图1所示。
图1. 米开朗基罗的大卫王头像,传统曲面用非规则的三角剖分表示。
图2. 曲面的共形参数化。
如图2所示,可以将曲面参数化映射到平面。为了减少参数化带来的几何畸变,采用计算共形几何算法【5】。仔细观察图1和图2,看到虽然弯曲的三维几何曲面被铺到平面区域之上,但是几何的局部细节被完美保持,局部上眉眼口鼻、耳朵发卷的形状没有畸变。从几何上讲,这一映射诱导的相应切平面之间的映射(切映射)是相似变换,但是相似比点点不同。
图3. 几何图像(左帧)与法向贴图(右帧)。
如图3所示,在参数域内用整数格点规则采样,每个采样点用一个像素来表示,像素的红绿蓝颜色代表采样点的空间坐标(x,y,z),然后用一幅图像来表示曲面,即所谓的几何图像【2】,如左帧所示。同样,也可以用每个像素来代表曲面上采样点处的法向量,颜色值代表法向量的三维坐标,如此得到了曲面的法向贴图,如右帧所示。
图4. 几何图像的mipmap。
每幅几何图像表达了一个曲面,对几何图像下采样,得到曲面的低解析率表示,如此得到几何图像的mipmap,如图4所示。几何图像可以用于表示任意复杂的曲面,例如图5所示的米开朗基罗的大卫王雕像。
图5. 米开朗基罗的大卫王雕像,几何图像表示。
传统的纹理贴图将二维纹理图像贴到三维曲面上,如图6所示,将棋盘格图像贴到斯坦福兔子曲面上,这里纹理图像表示了曲面的颜色。纹理图像也可以表示曲面的法向量,从而增加曲面的几何渲染的细节,如图7所示。为了表达鱼鳞的几何,需要太多的三角形。将高解析率的三角网格用最优传输映射参数化到平面圆盘【3】,最优传输映射的算法以前有详尽介绍。然后生成法向贴图,将法向贴图和低解析率的三角网格配合,依然可以得到几何细节的渲染效果。
图6. 颜色纹理贴图,由共形映射得到。
有了几何图像,可以用几何图像来作为纹理,从而增加曲面表面的几何细节,这被称为是几何纹理。如图7所示,小女孩穿的毛衣具有周期性的几何扭结结构,是用非常复杂的三角网格来描述,这件毛衣就是几何纹理。
图7. 几何纹理(靳淼作)。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)