谈谈图形学的从头建设发展之路

图形学要解决的几个问题：

1 模型，

2 透视

3 边界判断和遮挡

4 光影重力和机械运动等物理效果

模型的部分，我们先从二维图形开始说起，比如 “如何判断一个点在多边形内？” ，这个问题我将之称为 “边界判断” 问题，

假设我们设计一个游戏的话，就会考虑这个问题，不过对于魂斗罗超级玛丽这样的 8 位机游戏，角色道具之间的碰撞应该是直接比较角色道具的像素，还没有用到图形学，因为那个时代的游戏的分辨率不高，角色道具的像素数量很少，直接比较像素即可。

对于图形学来说，如何解决边界判断问题？

我想过一个办法，就是把多边形分解为若干个三角形，然后判断点是否在这些三角形里，但是有网友说了一个更直接的办法，就是连线，就是让点和多边形的每个端点连线，如果这些连线和多边形的边有相交则点在多边形外，没有相交则点在多边形内，确实这办法很好，但是只能处理 “没有凹陷” 的多边形。当然，分解为三角形的方法也只能处理 “没有凹陷” 的多边形，在有凹陷的情况下，分解三角形本身就是个困难的工作，需要判断多边形的边的 “哪一侧” 是 “内侧”，这个问题是边界判断的根本问题。

如何判断多边形的边的 “哪一侧” 是 “内侧”，最一般也是最复杂的情况是，任意给定一些点和一个顺序，按照这个顺序把点连接起来构成一个多边形。

这种情况是最一般也是最复杂的。

比如，给 A , B , C , …… X , Y , Z 这样一些点，按照 A , B , C , …… X , Y , Z 的顺序连起来。

这要考虑交叉的情况，即使没有交叉，要知道边的哪一侧是内侧，也是很麻烦的。

这需要判断最后一点（Z）和第一点（A）连接的闭合方向是顺时针还是逆时针，

这个顺时针逆时针并不是 ZA 方向，而是要判断本次 “环绕” 是在上次 “环绕” 的内部还是外部。

但是，有一种办法可以让问题简化，就是人为的给出某条边的内侧，这样可以递推出所有边的内侧，

比如，指定 AB 的 “右边” 是内侧，即 A 到 B 的方向的右边为内侧，这样可以递推出 BC , CD , DE , …… XY , YZ 的右边是内侧。

这样，只要判断点是否在所有边的内侧就是判断点是否在多边形内部。

这是可行的，因为模型是人建立的，所以人当然可以指定边的哪一侧是内侧，这样问题就大大简化了。

如果把边界判断问题推广到三维的话，情况会更复杂，如果由一些三角形面来组成一个体的话，这类似与二维由一些线段组成多边形，

那么，对于这些三角形面是否能组成一个封闭体，这是一个问题，二维的情况只要点顺序的连接，最后一点和第一点相连，就是一个封闭多边形，当然，这里面存在线段交叉的情况，但交叉了也是封闭的，或者可以按交叉的方式另行处理。

但是三维的情况就复杂了，空间中的面是会扭曲的，这不仅仅发生在连续曲面，用三角形面组成的 “组合面” 也会扭曲，

事实上，三角形面组成的组合面可以模拟连续曲面和逼近，这也是 3D 建模的基础。

由于面的扭曲，所以三维中要判断面是否构成一个封闭体就很复杂，我觉得单纯用算法大概很难实现。

这里的面包括了连续曲面和组合面。

面的扭曲，我们可以举个例子，就以拓扑学的经典例子来看：

把一条纸带扭一下再首尾粘起来，这就形成了一个纸带圈，因为扭了一下，这个纸带圈就有点神奇，

我们把一只蚂蚁放在纸带上，它可以从纸带的内侧爬到外侧，又从外侧爬到内侧，如此循环。

把纸带看作一个面，让这个面延展出去，是不能组成一个封闭体的，

这是因为有那个扭曲的存在，因为这个扭曲，即使延展出去的面封闭了，扭曲那里仍然会自然的形成一个 “洞”，

或者说一个隧道，两端与外界相通，感觉好像空间的漏洞 ……

当然，你可以用一些其它的面把隧道的两端给堵起来，但这就不是纸带（面）本身延展的结果了。

所以，我的看法是， 3D 建模中，一个体是否封闭，是由建模的人依靠直观来实现的，

在体封闭的前提上，和二维一样，人为的指定某个单元面的哪一侧是内侧，这样可以递推知道所有的单元面的内侧，

这样就可以解决三维下的边界判断问题。

只要判断点是否在所有单元面的内侧就可以判断点是否在封闭体内。

这里说的单元面是指组成封闭体的简单图形平面，最基本的是三角形面，

理论上，所有的多边形面都可以由三角形面构成，不过对于一些特定的模型，可以直接使用矩形梯形或其它多边形来作为单元面，

比如长方体，直接用矩形面组成就可以。

三角形面有一个特点是可以组成扭曲的组合面，矩形面不能组成扭曲的组合面，所以三角形面是基本的单元面。

接下来说说透视，透视是美术，也就是画画里的术语，透视所指的就是对于人眼来说，远处的物体变小的视觉效果，以及矩形看起来是平行四边形、圆形看起来像椭圆形这样的效果。

对于 3D 来说，模型最终投影并渲染到屏幕应该满足透视效果，这样看起来才符合人的视觉效果。

那如何计算透视呢？

我们来看看人眼（照相机）的成像示意图：

如图，线段 AB 经过瞳孔（镜头）在视网膜（胶片）上的成像是 ba，是一个倒立相反的像，

物理学中，我们知道，凸透镜的成像是倒立相反的，眼睛（照相机）的成像就是凸透镜原理。

可以看到 abo 和 ABo 两个三角形是相似三角形， ab 和 AB 之间存在一个比例关系： ab / oh = AB / oH ，

ab = AB * ( oh / oH ) ， oH 是 AB 到瞳孔（镜头）的距离，所以，像的大小和物体离瞳孔（镜头）的距离成反比。

像就是有透视效果的投影，我们也可以把像称为透视投影。

那么，根据上面这个反比关系，是不是可以来计算透视投影了呢？还不行，因为最关键的是要确定组成物体（模型）的单元面的端点的位置，

所以，还是需要根据成像的原理来计算单元面端点的位置，以此得到物体（模型）在视平面上的透视投影。

上图中的视网膜（胶片）就是视平面。

因为像是倒立相反的，我们还要把像 “反转” 过来，才能得到正立的像，在计算机里这很简单，像是一个位图，位图是一个二维数组，只要以倒序的方式输出数组的数据得到的就是 “反转” 的像，倒序就是以从最后一个元素到第一个元素的顺序访问元素。

虽然 3D 中需要根据成像原理计算像（透视投影），但是，在 2D 的第一视角游戏等一些模拟 3D 效果的场合（俗称 “假 3D”）可以使用上述的反比关系模拟 3D 透视效果，比如 2D 下的第一视角赛车游戏什么的。

接下来说遮挡，遮挡是个麻烦事，遮挡是图形学里的一个大问题，我们先来看看二维里的遮挡是怎么计算的，

二维里的遮挡比如浏览器里的元素之间的叠放，还有 Windows 操作系统里窗口之间的叠放。

只要根据元素（窗口）的叠放层次来渲染就可以。

不过我们先说说 “渲染” 这个词，渲染的英文是 Render ，但是在 Windows 编程里，通常说 “绘制” ，比如绘制窗口，所以， .Net 的 System.Windows.Forms 下的 Control 基类有 OnPaint() 和 OnPaintBackground() 虚方法，而窗口（Form）和所有的控件都是继承 Control 基类的，

Paint 就是画画，绘制的意思，还有一个近义词，就是 Draw， Draw 也有画画的意思，所以 .Net 提供 GDI+ 的名字空间 System.Drawing 是用 Drawing 来命名。里面那些矢量图形的绘制方法大概也是 Draw() ，我猜的，记不清了。

当然， System.Drawing 名字空间下还有一个重要的角色是 Brush ，刷子，又称画刷。

我觉得 Draw 主要是画线条， Paint 则偏重于涂色，以及整个综合的绘画过程。

以浏览器为例，设有 1 到 n 层元素， 1 层为最低层， n 层为最高层，则从最低层开始渲染，逐层渲染至最高层，

渲染就是输出像素。

这样高层会覆盖底层的内容（像素），这样就实现了叠放（遮挡）效果。

再说说半透明的问题，假设 2 层的透明度是 40% ，那在 2 层遮挡 1 层的区域，应该有 40% 的像素显示 1 层的像素，这 40% 的 1 层像素，应该均匀的分布在遮挡区域内，这样来实现半透明的效果。

对于多层叠放和多层半透明，一样的方法，逐层计算即可。

当然大家会问，能不能不用这种笨办法，能不能计算出每一层被上层遮挡后 “露出” 的部分，然后每一层只渲染露出的部分？

也可以。但是遮挡会产生许多不规则的图形，虽然浏览器的元素和 Windows 窗口都是矩形，即便如此，遮挡也会产生各种不规则图形，

就像围棋盘一样。

不规则图形是指 “露出” 的部分，因为露出部分是不规则图形，所以计算起来比较麻烦，如果元素（窗口）小而密集，那露出部分会呈不规则和 “碎片化”，这样计算量也不小。

在三维下，计算露出部分就更复杂，因为三维模型之间遮挡的露出部分的投影会是各种奇怪的不规则的图形，这个投影包括几何投影和透视投影。

所以，我放弃了三维下计算露出部分的算法。

退而求其次，像二维那样，根据叠放（遮挡）的层级，让每个模型的每个单元面一一渲染，如何？

这首先需要知道叠放（遮挡）的层级，

用通俗的话说，叠放（遮挡）的层级就是单元面谁在前谁在后，这个单元面包含所有模型的所有单元面，

同一个模型的单元面也有前后遮挡的关系，因为一个物体有 “正面” 和 “背面” 。

要给所有模型的所有单元面计算出遮挡层级，也就是说，要给所有模型的所有单元面排一个序，看看谁在前谁在后，就像给幼儿园的小朋友排队一样。

假设场景里的所有模型由 n 个单元面组成，每个单元面需要和其它的所有单元面都比较一次谁在前谁在后，

那么，需要比较的次数是 (n - 1) + (n - 2) + (n - 3) + (n - 4) + …… + 1 。

比较的算法是看 2 个单元面在视平面上的投影有没有相交，如果没有则 2 者不存在遮挡关系，如果有，则取投影中的任意一点，比较该点到单元面的距离，距离大的单元面靠后，距离小的单元面靠前，距离大的单元面被距离小的单元面遮挡。

这里说的投影包括了几何投影和透视投影，投影点到单元面的距离就是投影点沿着投影线到单元面的距离。

当然，几何投影和透视投影的投影方式不同，投影线也不一样。

这个方法可以用于计算单元面在几何投影上是否有遮挡，也可以用于计算单元面在透视投影上是否有遮挡。

可以看到， (n - 1) + (n - 2) + (n - 3) + (n - 4) + …… + 1 这个比较次数不小。

假设组成所有模型的单元面是 10000 个，那么 (n - 1) + (n - 2) + (n - 3) + (n - 4) + …… + 1 就等于 10000 * (9998 / 2) + 5555 = 49995555 ，差不多 5 千万，或者说接近 10000 * 10000 / 2 = 5 千万。

10000 * (9998 / 2) + 5555 = 49995555 这是高斯先生的算法，高斯小学时候老师出了一道题，让同学们从 1 加到 100，然后高斯很快就算好了，他的算法是 100 + 1 = 101 , 99 + 2 = 101 , 99 + 3 = 101 ，一共有 50 个 101，所以 1 + 2 + 3 + …… + 100 = 101 * 50 = 5050 。

一个比较细腻的模型，比如人体模型，似乎很容易花费 1 万个单元面，当然这是推测。

所以，一个和现实世界比较接近的场景中所有模型的单元面数量也是可观的，计算这些单元面的遮挡层次的计算量也很可观。

所以我暂时对这种做法持保留态度，不过我们还是可以看看如果知道所有单元面的遮挡层级，那么如何来渲染。

其实和二维差不多，区别是三维下要先计算透视投影，

三维的渲染是先计算透视投影，把透视投影输出像素到位图，位图就是渲染结果。

和二维一样，从最低层的单元面开始渲染，逐层渲染至最高层，这样高层会覆盖底层的内容（像素），这样就实现了叠放（遮挡）效果。

对于半透明的效果，也和二维一样，在渲染中，如果单元面遮挡了某些物体，则在该单元面的渲染结果中以透明度为比例显示上层渲染结果的像素。假设单元面的透明度是 40%，那么在单元面的渲染结果（输出像素）中应该有 40% 的像素显示的是上层的渲染结果的像素。这 40% 的像素是均匀的分布在单元面的渲染结果里的。

显然，这个做法的前提是计算出所有单元面的遮挡层次，但是，上文讨论了，计算所有单元面的遮挡层次的计算量是很大的，所以 3D 里的半透明效果是比较麻烦的。这里还没有考虑半透明介质在不同角度上的透明度的变化呢。比如，一块玻璃，把它放斜，相当于厚度增加了，透明度会降低。

还有折射半反射，，，

那么，能不能不计算出所有单元面的遮挡层次而实现遮挡效果？有一个办法，是个笨办法。

就是每个单元面独立渲染，不需要考虑单元面渲染的顺序，在输出每个像素的时候，比较当前位置的有没有其它单元面已经输出的像素，如果没有，则直接输出像素，如果有，则比较当前像素表示的投影点到单元面的距离，这个距离是投影点沿投影线到单元面的距离，距离大的表示靠后，距离小的表示靠前，靠前覆盖靠后。也就是说，如果当前像素的距离小，则覆盖已有像素，否则保持原有像素。

假设位图的分辨率是 1000 * 700 ，位图的像素数 1000 * 700 = 70 万，那么比较输出像素的次数可能小于 70 万，也可能远大于 70 万，

如果模型比较小或者离 “镜头” 比较远，那么，模型的像（透视投影）就很小，像（透视投影）的像素数量也少，这种情况下，所有模型的所有单元面的像（透视投影）的像素加起来可能小于 70 万，当然也可能大于。

这里要提一下背景，

背景也是一个或多个模型，是一种特殊的模型，它的特点是在 “最底层”，不会遮挡其它模型，只会被其它模型遮挡。

所以，背景最先被渲染，且不需要遮挡比较计算。

但问题是，如果背景由多个模型组成，这些模型之间也可能存在遮挡，这样还是需要遮挡比较计算。

实际应用中可能存在 “固定背景” ，就是把背景预先渲染好，而人物道具等实时模型直接在背景渲染好的位图上继续实时渲染，

这样可以减少计算量，省时省力，就好像拍电影在演员身后用一块幕布做背景那样，就像照相馆一样。

假设场景有 100 个模型，平均每个模型的像（透视投影）的像素是 10 万，那么， 100 个模型的输出像素数量是 100 * 10 万 = 1000 万，也就是要计算 1000 万次遮挡比较。

把每次输出像素时的比较操作的时间复杂度看作 O(1) ，那么，对于这 100 个模型的场景，渲染时计算遮挡比较时间复杂度是 O( 1000 万 )，

假设 CPU 每次比较输出像素的操作耗时 100 纳秒（ns）， 1 秒钟可以比较输出像素 1000 万次，

那么， CPU 1 秒钟可以渲染 1000 万 / 1000 万 = 1 个这样的 100 个模型的场景。

当然这些是推演和估算，但也大概可以看出 3D 需要密集的浮点计算以及把计算独立到 GPU 里进行的原因了吧 ~ ！

同样也可以看出，分辨率是 3D 的一个重要指标，分辨率的增长会带来显著的计算量增长，随之带来对硬件性能的要求的增长。

当然这里的渲染仅仅是计算遮挡，没有包括皮肤材质、光影等。

我们可以看看 3D 国漫，比如《画江湖之不良人》，不良人第一季第二季的最高分辨率是 720 P ，直到第三季，才变成了 1080 P 。

第一季大概是 2014 年出的，第三季应该是到了 2019 年，从 720 P 到 1080 P ，走了 5 年，不容易啊！

需要说明的是，第 3 种方法（就是上面这种每个单元面独立渲染，每个像素在渲染时比较到单元面的距离）不能实现半透明效果，实现半透明必须第 2 种方法（计算出所有单元面的遮挡层次，按层次渲染）。

这是因为半透明必须考虑一个整体的效果，即在上层单元面上按比例均匀的显示下层内容的像素，比例就是透明度。

这需要按层次渲染和按单元面呈现半透明效果。

上面我们讨论了模型边界判断透视遮挡，这 4 个问题是图形学的基本问题，这 4 个问题解决了，皮肤材质光影重力机械运动以及其它种种问题都是添砖加瓦的工作量问题。

于是，我们可以来总结一些基本的库函数：

1 求得简单图形面（三角形面矩形面）在任意平面上的几何投影

2 求得简单图形面（三角形面矩形面）的透视投影， “摄像机” 镜头和简单图形面的距离角度可以任意设置

3 求得多个简单图形面（三角形面矩形面）之间有遮挡效果的透视投影

以上的透视投影不包含皮肤材质光影，只包含简单图形面的边，实现了这 3 个库函数，实际上这已经是一个简单的图形引擎（3D 引擎）了。

这篇文章可以作为图形学的理论基础。

posted on 2019-06-01 21:24 凯特琳阅读(430) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 展开说说关于C#中ORM框架的用法！

凯特琳

谈谈图形学的从头建设发展之路

导航

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

凯特琳

谈谈 图形学 的 从头建设发展之路

导航

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

谈谈图形学的从头建设发展之路