Real-Time Rendering 第四章

第四章 变换 Transforms

变换(transform)是一种操作,它接受点(points),向量(vectors)或颜色(colors)之类的实体(entities),并且以某种方式转换它们。对于计算机图形从业者来说,掌握变换是非常重要的。有了它们,你可以定位(position)、重塑(reshape)和移动(animate)物体、灯光和照相机。你还可以确保所有计算都在同一坐标系中进行,并且以不同的方式将对象投影到平面上。这里只是少数可以通过变换执行的操作,但是这已经充分说明了变换(transform)在实时图形或任何类型计算机图形中的重要性。

线性变换(linear transform)是保留向量加法和标量乘法的变换。具体来说:

(4.1)f(x)+f(y)=f(x+y)

(4.2)kf(x)=f(kx)

举个例子, f(x)=5x 是一个使向量每个元素乘以 5 的变换。为了证明这是线性的,需要满足两个条件 (公式 4.1 与公式 4.2)。第一个 条件成立,因为任何两个向量乘以 5 然后相加就等于将向量柤加然后再相乘。第二个标量乘法条件 (公式 4.2) 已经明显是满足的。此函数我们称为缩放变换 (scaling transform),因为它可以更改对象的缩放比例 (大小) 。旋转变换 (rotation transform) 是另一个线性变 换,它可使向量绕原点旋转。包括缩放和旋转变换,实际上三维向量的所有线性变换,都可以使用 3×3 矩阵表示。

然而, 这个矩阵的大小通常不够大。三元素向量 x 的函数, 例如 f(x)=x+(7,3,2) 不是线性的。在两个单独的向量上执行此函数会将 (7, 3, 2) 的每个值相加两次以形成结果。将固定向量添加到另一个向量会执行平移,例如,它将所有位置移动相同的量。这是一种有用的变换类型,我们希望结合各种变换,例如,将对象缩放为原来的一半,然后将其移动到不同的位置。将函数保持在迄今为止使用的简单形式中,很难轻松地将它们组合起来。

我们可以使用仿射变换(affine transform)将线性变换(linear transforms)和平移(translations)结合起来,仿射变换通常存储为 4 × 4 矩阵。仿射变换是先执行线性变换然后执行平移变换。为了表示四维向量,我们使用齐次表示法(homogeneous notation),以相同的方式表示点和方向(使用粗体小写字母)。方向向量 (direction vector) 表示为 v=(vxvyvz0)T ,点 (point) 表示为 v=(vxvyvz1)T 。在本章中,我们将广泛使用在 realtimerendering.com 上可下载的线性代数附录中解释的术语和运算。

所有平移(translation),旋转(rotation),缩放(scaling),反射(reflflection)和剪切矩阵(shearing matrices)都是仿射(affine)。仿射矩阵(affine matrix)的主要特征就是它保留了线的平行性,但不一定保留长度和角度。仿射变换(affine transform)也可以是各个仿射变换级联(concatenations)的任何序列。

本章将从最根本的基本仿射变换(basic affine transforms)开始。本部分可以看作是简单变换的“参考手册”。之后,我们会描述一些专用的矩阵,随后对四元数(quaternions)——一种强大的变换工具,进行讨论和描述。然后是顶点融合(blending)和变形(morphing),这是表达网格动画的两种简单但有效的方法。最后,描述了投影矩阵。这些变换中大多数,它们的符号,功能和特性都总结在表 4.1 中,其中正交矩阵的逆矩阵为其转置矩阵。

变换(Transforms)是用于操纵几何体(geometry)的基本工具。大多数图形应用程序编程接口允许用户设置任意矩阵,有时库可能与实现本章讨论的许多变换的矩阵运算一起使用。但是,仍然有必要了解函数调用背后的实际矩阵及其相互作用。知道调用函数后矩阵做了什么是一个开始,但是了解矩阵本身的属性将使你的理解更进一步。例如,这种理解可以使你辨别何时处理正交矩阵(正交是其转置),从而可以更快地进行矩阵求逆。这样的知识可以让你的代码更加高效。

4.1 基本变换 Basic Transforms#

本节介绍最基本的变换,例如平移、旋转、缩放、剪切、变换串联、刚体变换、法线变换和逆计算。对于有经验的读者,可以作为简单变换的参考手册,对于新手,可以作为对该主题的介绍。这些材料是本章其余部分和本书其他章节的必要背景。我们从最简单的变换——“平移”开始。

简单的变换——“平移”开始。

表 4.1 本章讨论到的大多数变换的小结

符号 Notation 名称 Name 特点 Characteristics
T(t) 平移矩阵 translation matrix 移动一个点。仿射。
Rx(ρ) 旋转矩阵rotation matrix x 轴 旋转 ρ 弧度角。 y 轴与 z轴也使用此标记。 正交且仿射。
R 旋转矩阵rotation matrix 任意的旋转矩阵。正交且仿射。
S(s) 缩放矩阵scaling matrix 根据 s 值来缩放 x,y , Z轴。 仿射。
Hij(s) 剪切矩阵shear matrix 相对于分量 j ,用因子 s 剪切分量 ii,j{x,y,z} 。仿射。
E(h,p,r) 欧拉变换Euler transform 根据 head(yaw),pitch,roll三个方向的欧拉角给出的方向矩阵。正交&仿射。
Po(s) 正交投影orthographic projection 平行投影到某个平面或某个体积上。仿射。
Pp(s) 透视投影perspective projection 以透视图投影到平面或体积上。
slerp(q^,r^,t) 斯勒普变换slerp transform(注:全称为球面线性插值变换Spherical Linear Interpolation Transform) 生成关于四元数 q^r^ 以及参数 t 的插值四元数。

4.1.1 平移 Translation#

从一个位置到另一个位置的变化由平移矩阵 T 表示。此矩阵通过向量 去平移实体。 T 由下面的公式 4.3 给出:

(4.3)T(t)=T(tx,ty,tz)=(100tx010ty001tz0001)

4.1 显示了平移变换效果的示例。容易证明,将点 p=(px,py,pz,1)T(t) 相乘会产生一个新的点 p=(px+tx,py+ty,pz+tz,1) 这显然是一个平移。请注意,向量 v=(vx,vy,vz,0) 不受 T 乘法的影响,因为方向向量无法平 移。相反,点和向量都受其余仿射变换(affine transforms)的影响。平移矩阵的逆是 T1(t)=T(t) ,即向量 t 取反 ( negated )

图4.1左边的方形进行了平移变换,平移矩阵为 T(5,2,0) ,方形向右移动了 5 个单位距离,向上移动了 2 个单位距离。

在这一点上,我们应该提到的是,有时在计算机图形学中看到的另一种有效的符号方案,它使用的矩阵的底标是平移向量。例如DirectX 就是使用这种形式。在该方案中,矩阵的顺序将颠倒,即矩阵应用的顺序将从左至右读取。由于向量是行向量,因此可以将这种表示形式的向量和矩阵称为行优先形式(row-major form)。在本书中,我们将使用列优先形式(column-major form)。无论使用哪种方式,这纯粹是一种符号上的差异。当矩阵存储在内存中时,十六进制的最后四个值为三个平移值加后跟的一个值。

4.1.2 旋转 Rotation#

旋转变换将一个向量(位置或方向)绕经过原点的给定轴旋转指定的角度。像平移矩阵一样,它是一个刚体变换(rigid-body transform),换句话说,它保留了变换后的点之间的距离,并保留了惯用性(handedness)(即从不导致左右两侧互换)。在计算机图形学中,这两种类型的变换对于定位和定向对象显然很有用。方向矩阵(orientation matrix)是与摄像机视图(camera view)或对象相关联的旋转矩阵,它定义了其在空间中的方向,即其向上和向前的方向。

在二维中,旋转矩阵很容易得出。假设我们有一个向量 v=(vx,vy) ,我们将其参数化为 v=(vx,vy)=(rcosθ,rsinθ) 。如果我们将 向量旋转 ϕ 弧度(逆时针),则将得到 u=(rcos(θ+ϕ),rsin(θ+ϕ)) 。这可以重写为

(4.4)u=(rcos(θ+ϕ)rsin(θ+ϕ))=(r(cosθcosϕsinθsinϕ)r(sinθcosϕ+cosθsinϕ))=(cosϕsinϕsinϕcosϕ)R(ϕ)(rcosθrsinθ)v=R(ϕ)v

在这里我们使用角度和关系来展开 cos(θ+ϕ)sin(θ+ϕ) 。在三维中,常用的旋转矩阵是 Rx(ϕ),Ry(ϕ)Rz(ϕ) ,它们分别绕 xyz 轴旋转实体 ϕ 弧度。它们由公式 4.54.7 给出:

(4.5)Rx(ϕ)=(10000cosϕsinϕ00sinϕcosϕ00001)

(4.6)Ry(ϕ)=(cosϕ0sinϕ00100sinϕ0cosϕ00001)

(4.7)Rz(ϕ)=(cosϕsinϕ00sinϕcosϕ0000100001)

如果从 4×4 矩阵中删除最底行和最右列,则将获得 3×3 矩阵。对于每个绕任意轴旋转 ϕ 弧度的 3×3 矩阵 R ,它的迹 (trace), 矩阵 中对角元素的总和) 与轴无关,是恒定的,计算公式为 [997]:

(4.8)tr(R)=1+2cosϕ

旋䢂矩阵的效果可以在图 4.4 中看到。使旋转矩阵 Ri(ϕ) 起作用的原因是,它绕着轴 i 旋转了 ϕ 弧度,但它保留了旋转中的所有点。轴, i ,不变。注意, R 也将用于表示围绕任何轴的旋䢂矩阵。上面给出的轴旋䢂矩阵可以在一系列的三个变换中使用,以执行任意轴旋转。该过程在第 4.2.1 节中讨论。第 4.2.4 节介绍了直接绕任意轴的旋转。

所有旋转矩阵的行列式 (determinant) 均为 1 ,并且是正交的 (orthogonal) 。这对于任意数量的这些变换的级联 (concatenations) 也成立。还有另一种求逆的方法: Ri1(ϕ)=Ri(ϕ) ,即绕同一轴沿相反方向旋转。

示例:绕点旋转

假设我们要围绕 z 轴旋转一个 ϕ 弧度的对象,旋转中心为某个点 P 。那么该如何进行变换?图4.2中描述了这种情况。由于绕点旋转的特 征在于该点本身不受旋转的影响,因此变换首先通过平移对象使 p 与原点重合开始,这是通过 T(p) 完成的。此后跟随实际旋转: Rz(ϕ) 。最后,必须使用 T(p) 将对象平移回其原始位置。然后,得到的变换 X 由下式给出:

(4.9)X=T(p)Rz(ϕ)T(p)

注意上面矩阵的顺序。

图4.2 围绕特定点 p旋转的例子。

4.1.3 缩放 Scaling#

缩放矩阵 S(s)=S(sx,sy,sz) ,分别沿 xyz 方向按 sx,sysz 的缩放因子去缩放实体。这意味着可以使用缩放矩阵来放大或缩小 对象。 si(iϵ{x,y,z}) 越大,则按比例缩放的实体在该方向上越大。将 s 的任何分量设置为 1 自然可以避免在该方向上缩放比例发生变 化。公式 4.10 展示了S:

(4.10)S(s)=(sx0000sy0000sz00001)

第 65 页的图4.4 说明了缩放矩阵的作用。如果 sx=sy=sz ,则缩放操作称为统一操作 (uniform),否则称为非统一操作 (nonuniform)。有时,使用等向性 (isotropic) 和各向异性 (anisotropic) 缩放来代替统一和非统一性。倒数是

S1(s)=S(1/sx,1/sy,1/sz)

使用齐次坐标,创建统一缩放矩阵的另一种有效方法是通过操作位置 (3,3) 处的矩阵元素,即右下角的元素。该值会影响齐次坐标的w 分量, 因此会缩放矩阵变换后的点 (而非方向向量) 的每个坐标。例如,要均匀地缩放 5 倍,可以将缩放矩阵中 (0,0)(1,1)(22) 的元素设置为 5 ,或将 (33) 可以设置为 1/5 。执行此操作的两个不同矩阵如下所示:

(4.11)S=(5000050000500001),S=(1000010000100001/5)

与使用 S 进行均匀缩放相反,必须始终在使用 S 之后进行齐次化 (homogenization)。这可能是低效的,因为它涉及齐次化过程中的除 法。如果右下角的元素 (位置 (33) ) 为 1 ,则不需要除法。当然,如果系统总是在不检测是否为 1 的情况下进行除法,则不会产生任何额外消耗。

s 的一个或三个分量上的负值给出一种反射矩阵(reflection matrix),也称为镜像矩阵(mirror matrix)。如果只有两个比例因子为 1 那么我们将旋转 π 弧度。应当注意的是,与反射矩阵连接的旋转矩阵也是反射矩阵。因此,以下是反射矩阵:

(4.12)(cos(π/2)sin(π/2)sin(π/2)cos(π/2))(1001)=(0110)

当检测到反射矩阵时,通常需要进行特殊处理。例如,当顶点由反射矩阵变换时,其顶点具有逆时针顺序的三角形将获得顺时针顺序。此顺序更改可能导致不正确的照明和背面剔除(backface culling)。要检测给定的矩阵是否以某种方式反射,请计算矩阵左上 3×3 个元素的行列式。如果该值为负,则矩阵是反射的(reflflective)。例如,公式4.12 中矩阵的行列式(determinant)为00(1)(1)=1

示例:按特定比例缩放

缩放矩阵 S 仅沿 xyz 轴缩放。如果应在其他方向执行缩放,则需要复合变换。假设缩放应沿着正交轴右向向量 fx,fyfz 的轴 进行。那么首先,构造矩阵 F ,以更改基底 (basis),如下所示:

(4.13)F=(fxfyfz00001)

这个想法是使三个轴给定的坐标系与标准轴(standard axes)重合,然后使用标准缩放矩阵,然后变换回去。其第一步是通过乘以 F 的 转置即它的逆来进行的。然后完成实际的缩放,然后再变换回去。变换如公式 4.14 所示:

(4.14)X=FS(s)FT

4.1.4 剪切 Shearing#

另一类变换是剪切矩阵集。这些矩阵可以,例如,用于扭曲游戏中整个场景,以产生迷幻效果或扭曲模型的外观。有六个基本剪切矩阵, 它们分别表示为 Hxy(s),Hxz(s),Hyx(s),Hyz(s),Hzx(s)Hzy(s) 。第一个下标用于表示剪切矩阵正在更改哪个坐标,而第二个 下标表示进行剪切的坐标。剪切矩阵 Hxz(s) 的示例如公式 4.15 所示。注意,下标可用于在下面的矩阵中找到参数 s 的位置; x (其数 字索引为 0 ) 标识第零行,而 z (其数字索引为 2 ) 标识第二列,因此 s 位于此处:

(4.15)Hxz(s)=(10s0010000100001)

图4.3。用 Hxz(s) 剪切单位平方的效果。 y 值和z值都不受转换的影响,而 x 值是但 值和s 乘以z值的总和,导致平方倾斜。这种变换是保留区域的,这可以通过虚线区域相同来看出。

将此矩阵与点 p 相乘的结果是一个点: (px+spzpypz)T 。以图形方式显示,如图4.3所示。 Hij(s) 的倒数 (相对于第 j 个坐标剪切 第 i 个坐标,其中 ij ) 是通过在相反方向上前切产生的,即 Hij1(s)=Hij(s)

你还可以使用略有不同的剪切矩阵:

(4.16)Hxy(s,t)=(10s001t000100001)

然而,在此,两个下标都用于表示这些坐标将被第三坐标前切。这两种不同类型的描述之间的联系是 Hij1(s,t)=Hik(s)Hjk(t) ,其中 k 用作第三坐标的索引。该使用什么矩阵取决于个人偏好。最后,应该注意的是,由于任何剪切矩阵的行列式 |H|=1 ,这是一个保留体积的变换,如图 4.3 所示。

4.1.5 变换的串联 Concatenation of Transforms#

由于矩阵乘法运算的非对易性,矩阵出现的顺序很重要。因此,变换的串联被认为是顺序相关的。

作为顺序依赖的示例,请考虑两个矩阵 SRoS(2,0.5,1)x 分量缩放为两倍,将y分量缩放为 0.5。 Rz(π/6)z 轴逆时针旋转 π/6 弧度(在右手坐标系中从本书的页面向外指向)。这些矩阵可以用两种方法进行混合,其结果是完全不同的。这两种情况如图 4.4 所示。

图4.4。这说明了矩阵相乘时的顺序依赖性。在第一行图片中,应用旋转矩阵 Rz(π/6) ,然后缩放 S(s) ,其中 s=(2,0.5,1) 。这样, 合成后的矩阵为 S(s)Rz(π/6) 。在第二行图片中,以相反的顺序应用矩阵,从而得出 Rz(π/6)S(s) 。结果明显不同。对于任澺矩阵 MN ,通常认为 MNNM。 

将一系列矩阵的连接转换为单个矩阵的明显原因是为了提高效率。例如,假设你的游戏场景具有数百万个顶点,并且场景中的所有对象都必须缩放,旋转并最终平移。现在,不是将所有顶点与这三个矩阵中的每一个相乘,而是将这三个矩阵连接到一个矩阵中。然后将此单个矩阵应用于顶点。该复合矩阵为 C=TRS 。注意这里的顺序。比例矩阵 S 应该首先应用于顶点,因此在合成中显示在右侧。该排序意味着 TRSp=(T(R(Sp))) ,其中 p 是要变换的点。顺便说一句, TRS 是场景图系统(scene graph systems)常用的顺序。

值得注意的是,尽管矩阵串联是依赖于顺序的,但是矩阵可以根据需要进行分组。例如,假设你要使用 TRSp 计算一次刚体运动变换 TR 。将这两个矩阵 (TR)(Sp) 分组在一起并用中间结果替换是有效的。因此,矩阵串是关联的 (associative) 。

4.1.6 刚体变换 The Rigid-Body Transform#

当一个人抓住一个坚固的物体时,例如从桌子上用笔将其移动到另一个位置,也许移动到衬衫的口袋里,只有物体的方向和位置会发生变化,而物体的形状通常不会受到影响。这种仅由平移和旋转的串联组成的变换称为刚体变换。它具有保留长度,角度和惯用性的特性。

可以将任何刚体矩阵 X 表示为平移矩阵 T(t) 和旋转矩阵 R 的串联。因此, X 在公式 4.17 中具有矩阵的外观:

(4.17)X=T(t)R=(r00r01r02txr10r11r12tyr20r21r22tz0001)

X 的倒数计算为 X1=(T(t)R)1=R1 T(t)1 。因此,为了计算逆,对 R 的左上 3×3 矩阵进行转置,并且 T 的平移值改变符号。 将这两个新矩阵以相反的顺序相乘以获得逆。计算 X 的逆的另一种方法是考虑 R (使 R 出现为 3×3 矩阵) 和 X 的符号如下 (符号在第 6 页的公式 1.2 中描述):

(4.17)R¯=(r,0r,1r,2)=(r0Tr1Tr2,T)

得出:

X=(R¯t0T1)

其中, r0 表示旋转矩阵的第一列(即逗号表示从 0 到 2 的任何值,而第二个下标为 0 ),而 r0T 是列矩阵的第一行。请注意, 0 是填充 有零的 3×1 列向量。一些计算得出公式 4.19 中所示表达式的反函数:

(4.19)X1=(r0r1r2R¯Tt0001)

图4.5。计算几何体变换,该变换使相机对准 c 处,向量为 u 上看点 l。  为此,我们需要计算 ruvo

示例:调整相机的方向

计算机图形中的常见任务是调整相机的方向,使其对准特定位置。在这里,我们将介绍 gluLookAt () (来自OpenGL Utility Library,简称GLU) 的作用。即使现在很少使用此函数调用,该任务仍然很常见。假设胑相机位于 c 处,我们希望昭相机看着目标 1 ,并且昭相机的给定方向为 u ,如图 4.5 所示。我们要计算一个由三个向量 {r,u,v} 组成的基数。我们从计算视点向量为 v=(c1)/c1 开始, 即从目标到摄像机位置的归一化向量。然后可以将向右看的向量计算为 r=(v×u)/v×u 通常不能保证 u 向量指向正上方, 因此最终的向上向量是另一个叉积 u=v×r ,由于 vr 都通过构造进行了归一化和垂直处理,因此可以保证对其进行归一化。在我们将构建的相机变换矩阵 M 中,其思想是首先平移所有内容,使相机位置位于原点 (0,0,0) ,然后更改基数,以使 r(1,0,0)u(0,1,0) 以及 v(0,0,1) 。这是通过以下公式实现:

(4.20)M=(rxryrz0uxuyuz0vxvyvz00001)change of basis (100tx010ty001tz0001)translation =(rxryrztruxuyuztuvxvyvztv0001).

注意,当将平移矩阵与基本矩阵的变化连接在一起时,平移 t 在右边,因为它应该首先应用。记住将 ruv 的分量放在何处的一种 方法如下。我们希望 r 变成 (1,0,0) ,所以当将基础矩阵的变化乘以 (1,0,0) 时,我们可以看到矩阵的第一行必须是 r 的元素,因为 rr=1 。此外,第二行和第三行必须由垂直于 r 的向量组成,即 rx=0 。当对 uv 应用相同的思维时,我们得出以上基础矩阵的 变化。

4.1.7 法线变换 Normal Transform#

单个矩阵可用于一致地变换点、线、三角形和其他几何图形。相同的矩阵也可以变换沿着这些线或三角形表面上的切向量。然而,这个矩阵不能总是用于变换一个重要的几何属性,即表面法线(和顶点照明法线)。图 4.6 显示了如果使用相同的矩阵会发生什么。

图 4.6。左侧是原始几何图形,三角形以及从侧面显示的法线。中间的插图显示了如果模型沿 x 轴缩放 0.5,法线使用相同的矩阵会发生什么。右图显示了法线的正确变换。

适当的方法不是使用矩阵本身相乘,而是使用矩阵的伴随项的转置相乘 [227]。伴随矩阵(adjoint)的计算在我们的在线线性代数附录中进行了描述。伴随矩阵关系始终保证存在,但法线不能保证在变换后仍是单位长度,因此通常需要将其归一化(normalized)。

变换法线的传统解法是计算逆的转置(the transpose of the inverse) [1794]。此方法通常有效。但是,完整的逆不是必需的,并且有时无法创建。逆是伴随数除以原始矩阵的行列式。如果该行列式为零,则矩阵是奇异的(singular)并且不存在逆。

即使只计算一个完整的 4×4 矩阵的伴随,也可能很昂贵,并且通常没有必要。由于法线是向量,因此平移不会对其产生影响。此外,大多数模型变换都是仿射的(affine)。它们不会更改传入的齐次坐标的 w 分量,也就是说,它们不会执行投影(projection)。在这些(常见)情况下,正常变换所需的仅是计算左上 3×3 分量的伴随矩阵。

通常甚至不需要这种伴随计算。假设我们知道变换矩阵完全由平移,旋转和统一缩放操作(无拉伸或压扁)的串联组成。可知平移不影响法线。统一的缩放因子仅改变法线的长度。剩下的就是一系列旋转,因此总是产生某种形式的最终的旋转值,仅此而已。逆的转置可用于变换法线。旋转矩阵是通过其转置矩阵为逆来定义的。代替以获得法线变换,两个转置(或两个逆)给出原始旋转矩阵。综上所述,原始变换本身也可以在这些情况下直接用于变换法线。

最后,并不总是需要完全重新归一化(renormalizing)生成的法线。如果仅平移和旋转连接在一起,则法线在通过矩阵进行变换时不会更改长度,因此不需要重新归一化。如果还连接了统一的缩放比例,则总缩放比例因子(如果已知或已提取,请参见第 4.2.3 节)可用于直接归一化所生成的法线。举个例子,如果我们知道应用了一系列缩放,使对象变大了 5.2 倍,则通过将此矩阵直接变换的法线除以 5.2 就会对其进行重新归一化。另外,为了创建一个产生归一化结果的法线变换矩阵,原始矩阵左上角的 3×3 可以除以该比例因子。

请注意,在变换之后,表面法线是从三角形得出的系统中,法线变换不是问题(例如,使用三角形边的叉积)。另外,切向量在本质上与法线不同,并且总是直接由原始矩阵变换而成。

4.1.8 逆的计算 Computation of Inverses#

在许多情况下都需要逆(inverses)。例如在坐标系之间来回切换时, 根据有关变换的可用信息,我们可以使用以下三种方法之一来计算矩阵的逆:

  • 如果矩阵是单个变换或具有给定参数的简单变换序列,则该矩阵可以通过“反转参数”和矩阵顺序轻松地计算。举个例子,如果 M=T(t)R(ϕ) ,则 M1=R(ϕ)T(t) 。这很简单,并且保留了变换的准确性,这在渲染巨大世界时很重要[1381]。
  • 如果已知矩阵是正交的,则 M1=MT ,即转置为逆。旋转的任何序列都是旋转,因此是正交的。
  • 如果没有任何已知条件,则可以使用伴随方法(the adjoint method),克莱姆法则(Cramers rule),LU分解(LU decomposition) 或高斯消除法 (Gaussian elimination) 来计算逆。通常最好使用克莱姆法则和伴随方法,因为它们的分支操作较 少; 在现代体系结构上最好避免使用“if”测试。请参阅第 4.1.7 节,了解如何使用伴随来反转变换法线。

优化时也可以考虑逆计算的目的。例如,如果将逆函数用于向量变换,则通常只需要对矩阵左上角的 3×3 部分进行反转(请参见上一节)。

4.2 特殊矩阵变换与运算 Special Matrix Transforms and Operations#

在本节中,将介绍和推导一些对实时图形来说必不可少的几种矩阵变换和运算。首先,我们介绍欧拉变换(the Euler transform)及其参数提取,欧拉变换是描述方向的一种直观的方法。然后,我们会谈到从单个矩阵中提取出一组基本变换。最终,推导出一种绕任意轴旋转实体的方法。

4.2.1 欧拉变换 The Euler Transform#

这种变换是构造矩阵以将自己(即相机)或任何其他实体定向到某个方向的一种直观方法。它的名字来自伟大的瑞士数学家莱昂哈德·欧拉(Leonhard Euler,1707–1783年)。

首先,必须建立某种默认的视图方向。如图 4.7 所示,它通常沿负 z 轴放置,head 沿 y 轴放置。欧拉变换是三个矩阵的乘积,即图中所示的旋转。更正式地说,表示为E的变换由公式 4.21 给出:

(4.21)E(h,p,r)=Rz(r)Rx(p)Ry(h)

矩阵的顺序可以以 24 种不同的方式选择 [1636];这可以通过选择矩阵的顺序来实现。我们介绍这个是因为它是常用的。由于 E 是旋转 的串联,因此它也显然是正交的。因此,它的逆可以表示为 E1=ET=(RzRxRy)T=RxTRyTRzT ,当然,直接使用 E 的转置会更 容易。
欧拉角 hpr 分别表示 head,pitch 和 roll 应按其顺序旋转以及绕其各自的轴旋转多少。有时,所有角度都称为“rolls”,例如,我们的 "head"为 “ y-roll",而我们的“pitch"为“ x-roll"。另外,"head"有时也称为“yaw",例如在飞行模拟中。

这种变换很直观,因此很容易用外行的语言进行讨论。例如,改变 head 角度会使观看者摇头“no”,改变 pitch 会使他们点头,而 rolling 会使他们的 head 向侧面倾斜。我们不是在谈论围绕 x , y 和 z 轴 的旋转,而是谈论改变 head,pitch 和 roll。请注意,此变换不仅可以定向相机,还可以定向任何对象或实体。可以使用世界空间的全局轴(the global axes of the world space)或相对于局部参照系执行这些变换。

重要的是要注意,一些欧拉角的表示将 z 轴作为初始向上方向。这种差异纯粹是一种符号上的变化,尽管可能会造成混淆。在计算机图形学中,如何看待世界以及如何形成内容存在分歧:y 向上 或 z 向上。大多数制造工艺(包括3D打印)都认为 z 方向在世界空间中向上。航空和海上交通工具认为 -z 为向上。建筑和 GIS(地理信息系统,Geographic Information System 或 Geo-Information system,缩写为 GIS) 通常使用 z-up,因为建筑平面图或地图是二维的 x 和 y 。与媒体相关的建模系统通常将 y 方向视为世界坐标上的向上方向,以匹配我们始终在计算机图形学中描述相机的屏幕向上方向的方式。这两个世界向量选择之间的差异仅相差 90° 旋转(并且可能是反射),但不知道假定哪个会导致问题。在本卷中,除非另有说明,否则我们使用 y 向上的世界方向。

图4.7。欧拉变换及其与更改 head,pitch 和 roll 的方式之间的关系。显示默认视图方向,沿负z轴看,向上方向沿y轴看。

我们还想指出,相机在其视野中的向上方向与世界的向上方向没有特别关系。转动 head,视野就会倾斜,其世界空间向上方向与世界方 向不同。再举一个例子,假设世界使用 yup,而我们的相机则直视下方的地形,鸟瞰。此方向表示相机已向前倾斜 90 ,因此其在世界空 间中的向上方向为 (0,0,1) 。在这种方向上,相机没有 y 分量,而是认为 z 在世界空间中向上,但根据定义,“ y 在上方”在视图空间 (view space) 中仍然适用。

欧拉角虽然适用于较小的角度变化或观看者方向,但还有其他一些严重的限制——很难将两组欧拉角组合使用。例如,在一组和另一组之间进行插值并不是对每个角度进行插值的简单问题。实际上,两组不同的欧拉角可以给出相同的方向,因此任何插值都不应旋转对象。这些是使用本章稍后讨论的替代方向表示形式(例如四元数)值得追求的一些原因。使用欧拉角,你还会遇到被称为万向节锁定(gimbal lock)的问题,这将在第 4.2.2 节中介绍。

4.2.2 从欧拉变换中提取参数 Extracting Parameters from the Euler Transform#

在某些情况下,使用从正交矩阵中提取欧拉参数 hpr 的过程很有用。此过程如公式 4.22 所示:

(4.22)E(h,p,r)=(e00e01e02e10e11e12e20e21e22)=Rz(r)Rx(p)Ry(h)

在这里,我们放弃了 3×3 矩阵的 4×4 矩阵,因为后者提供了旋转矩阵的所有必要信息。也就是说,等效的 4×4 矩阵的其余部分始终在右下位置包含0和一个1。

(4.23)E=(cosrcoshsinrsinpsinhsinrcospcosrsinhsinrsinpcoshsinrcoshcosrsinpsinhcosrcospsinrsinhcosrsinpcoshcospsinhsinpcospcosh)

由此可见,pitch 参数由 sinp=e21 给出。同样,将 e01 除以 e11 ,并类似地将 e20 除以 e22 ,会产生以下用于 head 和 roll 参数的提取公式:

(4.24)e01e11=sinrcosr=tanr and e20e22=sinhcosh=tanh

因此,如公式 4.25 所示,使用函数 atan2(y,x) (请参阅第1章第8页)从矩阵E提取欧拉参数h (head), p (pitch) 和 r (roll) :

(4.25)h=atan2(e20,e22)p=arcsin(e21)r=atan2(e01,e11)

但是,有一种特殊情况需要处理。如果 cos p=0 ,则具有万向节锁定 (第 4.2.2 节),旋转角度r和h将绕同一轴旋转 (尽管可能沿不同 的方向旋转,具体取决于 P 旋转角度是 π/2 还是 π/2 ),因此只需导出一个角度。如果我们任意设置 h=0 [1769], 我们得到

(4.26)E=(cosrsinrcospsinrsinpsinrcosrcospcosrsinp0sinpcosp)

由于 p 不影响第一列中的值,因此当 cosp=0 时,我们可以使用 sinr/cosr=tanr=e10/e00 ,得出 r=atan2(e10,e00)

请注意,根据反正弦的定义, π/2pπ/2 ,这意味着如果使用该间隔之外的 p 值创建 E ,则无法提取原始参数。 h,pr 不是唯 一的,意味着可以使用一组以上的欧拉参数来产生相同的变换。有关欧拉角转换的更多信息,请参见 Shoemake 的 1994 年文 章 [1636]。上面概述的简单方法可能会导致数值不隐定的问题,这在速度方面会付出一定的代价来避免 [1362]

当您使用欧拉变换时,可能会发生万向节锁定(gimbal lock) [499,1633] 。这发生在旋转时,会因此失去一个自由度。举个例子,变换的顺序是 x/y/z 。假设第二次旋转我们绕 y 轴旋转 π/2 。这样做会旋转局部 z 轴以使其与原始 x 轴对齐,因此围绕 z 的最终旋转是不正确的。

在数学上,我们已经在公式 4.26 中看到了万向节锁定,其中假设 cosp=0 ,即 p=±π/2+2πk ,其中 k 是整数。有了这样的 p 值, 我们失去了一个自由度,因为矩阵仅取决于一个角度 r+hrh (但不是同时取决于两个角度)。
尽管在模型系统中通常以 x/y/z 顺序表示欧拉角,但绕每个局部轴旋转时,其他顺序也是可行的。例如,动画中使用 z/x/y ,动画和物理学中都使用 z/x/z 。所有都是指定三个单独旋转的有效方法。最后的 z/x/z 顺序在某些应用中可能会更好,因为只有当绕 x 旋转 π 弧 度 (半旋转) 时,才会发生万向节锁定。没有完美的序列可以避免万向节锁定。尽管如此,欧拉角还是很常用的,因为动画师更喜欢曲线编辑器来指定角度如何随时间变化 [499]。

示例:约束变换

想象您拿着一把 (虚拟的) 扳手紧紧地抓住螺栓。为了将螺栓固定到位,您必须围绕 x 轴旋转扳手。现在假设您的输入设备(鼠标,VR 手套,太空球等) 为扳手的运动提供了一个旋转矩阵,即一个旋转矩阵。问题在于,将这种变换应用于扳手,扳手应该只绕X轴旋转,这可能是错误的。要将输入变换 (称为 P ) 限制为绕 x 轴旋转,只需使用本节中介绍的方法提取欧拉角 hpr ,然后创建一个新矩阵 Rx(p) 。然后,这是一种受欢迎的变换,它将使扳手绕 x 轴旋转(如果 P 现在包含这样的运动 ) 。

4.2.3 矩阵分解 Matrix Decomposition#

到目前为止,我们一直在假设我们知道所使用的变换矩阵的初始状态和历史记录的情况下进行工作。通常情况下并非如此。例如,仅连接的矩阵可以与某个变换后的对象相关联。从级联矩阵中提取各种变换的任务称为矩阵分解(matrix decomposition)。

提取变换的原因有很多。用途包括:

  • 为对象提取比例因子。
  • 查找特定系统所需的变换。(例如,某些系统可能不允许使用任意 4×4 矩阵。)
  • 确定模型是否仅经历了刚体变换。
  • 在动画中的关键帧之间进行插值,其中仅对象的矩阵可用。
  • 从旋转矩阵中删除剪切。

我们已经提出了两种分解方法,分别是为刚体变换导出平移和旋转矩阵(第4.1.6节)以及从正交矩阵导出欧拉角(第4.2.2节)。

正如我们所看到的,提取变换矩阵很简单,因为我们只需要 4×4 矩阵的最后一列中的元素。我们还可以通过检查矩阵的行列式是否为负来确定是否发生了反射。要分离出旋转,缩放和剪切,需要花费更多的精力。

幸运的是,有几篇关于该主题的文章以及在线提供的代码。Thomas [1769] 和Goldman [552,553] 各自针对各种类型的变换提出了一些不同的方法。Shoemake [1635] 改进了他们的仿射矩阵技术,因为他的算法与参考系无关,并尝试分解矩阵以获得刚体变换。

4.2.4 绕任意轴旋转 Rotation about an Arbitrary Axis#

有时使用使实体绕任意轴旋转某个角度的过程会很方便。假设旋转轴 r 已归一化,并且应该创建一个围绕 r 旋转 α 弧度的变换。
为此,我们首先变换到一个空间,这个空间里我们要围绕其旋转的轴是 x 轴。这是通过一个称为 M 的旋转矩阵完成的。然后执行实际的 旋转,之后使用 M1 进行变换 [314]。此过程如图 4.8 所示。
为了计算 M ,我们需要找到两个对 r 来说正交的轴。我们专注于找到第二根轴 s ,知道第三根轴将是第一根轴和第二根轴的叉积, t=r×s 。一种数字稳定的方法是找到 r 的最小成分 (绝对值),并将其设置为 0 。交换剩余的两个成分,然后对它们中的第一个取反 (实际上,可以否定非零分量中的任何一个)。在数学上,这表示为 [784]:

(4.27)s¯={(0,rz,ry), if |rx||ry| and |rx||rz|(rz,0,rx), if |ry||rx| and |ry||rz|(ry,rx,0), if |rz||rx| and |rz||ry|s=s¯/s¯,t=r×s

这保证了 s¯r 正交 (垂直),并且 (r,s,t) 是正交的基础。Frisvad [496] 提出了一种在代码中没有任何分支的方法,该方法速度更快,但准确性较低。Max [1147] 和 Duff 等。[388] 提高了 Frisvad 方法的准确性。无论采用哪种技术,都会使用这三个向量来创建旋转矩阵:

(4.28)M=(rTsTtT)

该矩阵将向量 r 变换为 x 轴,将 s 变换为 y 轴,将 t 变换为 z 轴。因此,然后使围绕标准化向量 r 旋转 α 弧度的最终变换为:

(4.29)X=MTRx(α)M

Goldman [550]提出了另一种通过 ϕ 弧度绕任意归一化轴 r 旋转的方法。在这里,我们只介绍他的变换:

(4.30)R=(cosϕ+(1cosϕ)rx2(1cosϕ)rxryrzsinϕ(1cosϕ)rxrz+rysinϕ(1cosϕ)rxry+rzsinϕcosϕ+(1cosϕ)ry2(1cosϕ)ryrzrxsinϕ(1cosϕ)rxrzrysinϕ(1cosϕ)ryrz+rxsinϕcosϕ+(1cosϕ)rz2)

在第 4.3.2 节中,我们提出了解决此问题的另一种方法,使用四元数(Quaternions)。在那个部分中,还有针对相关问题(例如从一个向量到另一个向量的旋转)的更高效的算法。

4.3 四元数 Quaternions#

四元数是复数的扩展,尽管它是威廉·罗恩·汉密尔顿爵士(Sir William Rowan Hamilton)于1843年发明的,但直到1985年,Shoemake [1633]才将它们引入计算机图形学领域。四元数用于表示旋转和方向。它们在几种方面都优于欧拉角和矩阵。任何三维定向都可以表示为围绕特定轴的单个旋转。当给出了该轴和角度表示后,四元数的平移很简单,而在任一方向上的欧拉角转换都十分有挑战性。四元数可用于稳定方向和恒定插值,而欧拉角无法很好地完成这些操作。

复数(complex number)具有实部和虚部。每个复数都由两个实数表示,其中第二个实数乘以 1。同样,四元数有四个部分。前三个值与旋转轴密切相关,旋转角影响所有四个部分(有关更多信息,请参见第 4.3.2 节)。每个四元数由四个实数表示,每个实数与一个不同的部分相关联。由于四元数具有四个分量,因此我们选择将它们表示为向量,但是为了区分它们,我们在它们上加了一个帽子:。1我们从四元数的一些数学背景开始,然后将其用于构建各种有用的变换。

4.3.1 数学背景 Mathematical Background#

四元数的定义:定义 四元数 q^ 可以用以下所有等效的方式定义

(4.31)q^=(qv,qw)=iqx+jqy+kqz+qw=qv+qw,qv=iqx+jqy+kqz=(qx,qy,qz),i2=j2=k2=1,jk=kj=i,ki=ik=j,ij=ji=k.

变量 qw 被称为四元数 q^ 的实部 (real part) 。虚部 (imaginary part) 为 qv,i,jk 称为虚单位 (imaginary units) 。
对于虚部 q^ ,我们可以使用所有法向向量运算,例如加法,缩放,点积,叉积等等。使用四元数的定义,得出两个四元数 q^r^ 之间的 乘法运算,如下所示。注意,虚部的乘法是不可交换的。

乘法(Multiplication):

(4.32)q^r^=(iqx+jqy+kqz+qw)(irx+jry+krz+rw)=i(qyrzqzry+rwqx+qwrx)+j(qzrxqxrz+rwqy+qwry)+k(qxryqyrx+rwqz+qwrz)+qwrwqxrxqyryqzrz=(qv×rv+rwqv+qwrv,qwrwqvrv)

从该方程式可以看出,我们使用叉积和点积来计算两个四元数的乘法。
除了四元数的定义外,还需要加法,共轭,范数和恒等式的定义:

加法(Addition):

q^+r^=(qv,qw)+(rv,rw)=(qv+rv,qw+rw)

共轭(Conjugate):

q^=(qv,qw)=(qv,qw)

归一化(Norm):

(4.33)n(q^)=q^q^=q^q^=qvqv+qw2=qx2+qy2+qz2+qw2

恒等式(Identity):

i^=(0,1)

当简化 n(q^)=q^q^ 时 (如上所示),虚部将抵消,仅保留实部。归一化有时表示为 q^=n(q^) [1105]。上面的结果是,可以导出由 q^1 表示的乘法逆。方程 q^1q^=q^q^1=1 对于逆必须成立 (对于乘法逆来说是常见的)。我们从归一化的定义中得出一个公式:

(4.34)n(q^)2=q^q^q^q^n(q^)2=1

这给出了乘法逆,如下所示:

逆(Inverse):

(4.35)q^1=1n(q^)2q^

逆公式使用标量乘法,它是从公式 4.3.1 中的乘法得出的运算: sq^=(0,s)(qv,qw)=(sqv,sqw), q^s=(qv,qw)(0,s)=(sqv,sqw) 这意味着标量乘法是可交换的: sq^=q^s=(sqv,sqw). 我们可以从定义中轻松得出以下规则集合:

共轭规则(Conjugate rules):

(4.36)(q^)=q^(q^+r^)=q^+r^(q^r^)=r^q^

归一化规则(Norm rules):

(4.37)n(q^)=n(q^)n(q^r^)=n(q^)n(r^)

乘法定律(Laws of Multiplication)(包含以下两个):

线性度(Linearity):

(4.38)p^(sq^+tr^)=sp^q^+tp^r^(sp^+tq^)r^=sp^r^+tq^r^

关联性(Associativity):

p^(q^r^)=(p^q^)r^

单位四元数 q^=(qv,qw) 使得 n(q^)=1 。由此可以得出 q^ 可写为

(4.39)q^=(sinϕuq,cosϕ)=sinϕuq+cosϕ

对于某些二维向量 uq ,例如 uq=1 , 因为

(4.40)n(q^)=n(sinϕuq,cosϕ)=sin2ϕ(uquq)+cos2ϕ=sin2ϕ+cos2ϕ=1

当且仅当 uquq=1=uq2 。如在下一节中将看到的,单位四元数非常适合以最有效的方式创建旋转和方向。但在此之前,将为单 元四元数引入一些额外的操作。

对于复数,可以将二维单位向量写为 cosϕ+isinϕ=eiϕ 。四元数的等效项是

q^=sinϕuq+cosϕ=eϕuq

单位四元数的对数和幂函数来自公式 4.41 :

对数: log(q^)=log(eϕuq)=ϕuq

幕: q^t=(sinϕuq+cosϕ)t=eϕtuq=sin(ϕt)uq+cos(ϕt).

4.3.2 四元数变换 Quaternion Transforms#

图 4.9。由单位四元数 q^=(sinϕuq,cosϕ). 表示的旋转变换的图示。变换围绕轴 uq 旋转 2ϕ 弧度。

现在,我们将研究四元数集的子类,即单位长度的子类,称为单位四元数( unit quaternions)。关于单元四元数的最重要事实是,它们可以表示任何三维旋转,并且这种表示极其紧凑和简单。

现在,我们将说明使单元四元数对旋转和定向如此有用的原因。首先,将一个点或向量的四个坐标 p=(pxpypzpw)T 放入四元数 p^的分量中,并假设我们有一个单位四元数 q^=(sinϕuq,cosϕ) 。可以证明:

(4.43)q^p^q^1

绕轴 uq 旋转 p^ (并因此旋转点 P ),旋转角度为 2ϕ 。注意,由于 q^ 是单位四元数,因此 q^1=q^ 。见图 4.9。
q^ 的任何非零实数倍也表示相同的变换,这意味着 q^q^ 表示相同的旋转。也就是说,取反轴 uq 和实部 qw ,将生成一个四元数,该 四元数的旋转与原始四元数的旋转完全相同。这也意味着从矩阵中提取四元数可以返回 q^q^
给定两个单位四元数 q^r^ ,首先将 q^ 然后应用于四元数 p^ (可以解释为点 P ) 的连接由式 4.44 给出:

(4.44)r^(q^p^q^)r^=(r^q^)q^(r^q^)=c^p^c^

在此, c^=r^q^ 是表示单元四元数 q^r^ 的级联的单元四元数。

矩阵转换(Matrix Conversion)

由于通常需要组合几个不同的变换,并且大多数变换都是矩阵形式,因此需要一种将公式4.43转换为矩阵的方法。四元数 q^ 可以转换成 矩阵 Mq ,如公式 4.45 [1633,1634]所示:

(4.45)Mq=(1s(qy2+qz2)s(qxqyqwqz)s(qxqz+qwqy)0s(qxqy+qwqz)1s(qx2+qz2)s(qyqzqwqx)0s(qxqzqwqy)s(qyqz+qwqx)1s(qx2+qy2)00001)

在此,标量为 s=2/(n(q^)) 。对于单元四元数,这简化为

(4.46)Mq=(12(qy2+qz2)2(qxqyqwqz)2(qxqz+qwqy)02(qxqy+qwqz)12(qx2+qz2)2(qyqzqwqx)02(qxqzqwqy)2(qyqz+qwqx)12(qx2+qy2)00001)

一旦构建了四元数,就无需计算三角函数(trigonometric functions),因此转换过程实际上是有效的。

从正交矩阵 Mq 到单位四元数 q^ 的反向转换要复杂得多。此过程的关键是公式 4.46 中的矩阵具有以下差异:

(4.47)m21qm12q=4qwqxm02qm20q=4qwqym10qm01q=4qwqz

这些等式的含义是,如果 qw 是已知的,则可以计算向量 vq 的值,从而得出 q^ 。的踪迹由下式计算

(4.48)tr(Mq)=42s(qx2+qy2+qz2)=4(1qx2+qy2+qz2qx2+qy2+qz2+qw2)=4qw2qx2+qy2+qz2+qw2=4qw2n(q^)2

此结果将对单位四元数产生以下转换:

(4.49)qw=12tr(Mq),qx=m21qm12q4qwqy=m02qm20q4qw,qz=m10qm01q4qw

为了具有数值稳定的例程 [1634],应该避免小数除法。因此,首先设置 t=qw2qx2qy2qz2 ,由此得出

(4.50)m00=t+2qx2m11=t+2qy2m22=t+2qz2u=m00+m11+m22=t+2qw2

这又意味着 m00,m11,m22u 中的最大值确定 qx,qy,qz, 和 qw 中的哪个最大。如果 qw 最大,则使用公式 4.49 得出四元数。否则,我们注意到以下情况成立:

(4.51)4qx2=+m00m11m22+m334qy2=+m00m11m22+m334qz2=+m00m11m22+m334qw2=tr(Mq)

然后,使用上述方程式的适当公式来计算 qx,qyqz 的最大值,然后使用公式 4.47 计算 q^ 剩下的部分。 Schuler [1588] 提出了一种无分支但使用四个平方根的变体。

球面线性插值(Spherical Linear Interpolation)

球面线性揷值是一种操作,即在给定两个单元四元数 q^r^ 以及参数 t[0,1] 的情况下,计算揷值四元数。例如,这对于动画对象很有 用。揷值相机的方向没有用,因为揷值期间相机的“向上”向量可能会倾斜,通常是一种干扰效果。 该运算的代数形式由下面的复合四元数 s^ 表示:

(4.52)s^(q^,r^,t)=(r^q^1)tq^

但是,对于软件实现,以下形式更合适:(下边的 slerp 代表球面线性插值 spherical linear interpolation)

(4.53)s^(q^,r^,t)=slerp(q^,r^,t)=sin(ϕ(1t))sinϕq^+sin(ϕt)sin(ϕ)r^

为了计算该方程式所需的 ϕ ,可以使用以下事实: cosϕ=qxrx+qyry+qzrz+qwrw [325]。对于 t[0,1] , slerp 函数计算 (唯一 ) 内揷四元数,它们共同构成从 q^(t=0)r^(t=1) 的二维单位球面上的最短弧。圆弧位于由 q^r^ 和原点之间的平面与三维单位球面的交点形成的圆上。如图 4.10 所示。计算出的旋转四元数以固定速度绕固定轴旋转。这样的曲线具有恒定速度,因此加速度为零, 称为测地曲线(geodesic curve) [229]。球体上的大圆是通过原点和球体的平面相交而生成的,这种圆的一部分称为大圆弧(great arc)

图4.10。单位四元数表示为单位球面上的点。 slerp函数用于在四元数之间进行揷值,并且揷值路径是球面上的大弧。请注意,丛 q^1q^2 进行揷值,以及从 q^1q^3 到/ q^2 进行揷值,即使它们到达相同的方向,也是不一样的。

slerp 函数非常适合在两个方向之间进行揷值,并且表现良好 (固定轴,恒定速度)。使用多个欧拉角揷值时则不是这种情况。 实际上,直接计算一个 slerp 是昂贵的操作,因为它涉及调用三角函数(trigonometric functions)。Malyshau [1114]讨论了将四元数集成到渲染管线中的问题。他指出,如果不使用 slerp 而是简单地在像素着色器中对四元数进行归一化,则 90 度角的三角形方向误差最大为 4 度。栅格化三角形时,此错误率可以接受。Li [1039,1040]提供了更快的增量方法 (incremental methods) 来计算不牺牲任何准确性的 slerps。Eberly [406]提出了一种仅使用加法和乘法来计算视力的快速技术。

当方向大于两个时,我们称 q^0,q^1,,q^n1 可用,我们想从 q^0q^1 再到 q^2 进行揷值,依此类推,直到 q^n1 为止,此时 slerp可以直接使用。现在,当我们称 q^i 时,我们将使用 q^i1q^i 作为 slerp 的参数。通过 q^i 之后,我们将使用 q^iq^i+1 作为 slerp 的参数。这将导致突然的抽搐现象出现在方向揷值中,如图 4.10 所示。这类似于线性揷补点时发生的情况。请参阅第 720 页的图 17.3 的右上部分。某些读者在阅读了第 17 章中的样条线 (splines) 后,可能希望重新阅读以下段落。

一种更好的揷值方法是使用某种样条线。我们在 q^iq^i+1 之间引入四元数 。a^ia^i+1可以在四元数 定义球形q^i,a^i,a^i+1, 和三次揷值。令人惊讶的是,这些额外的四元数的计算如下 [404] (3) 所示:

(4.54)a^i=q^iexp[log(q^i1q^i1)+log(q^i1q^i+1)4]

q^ia^i 将用于使用光滑三次样条球面揷值四元数,如公式 4.55 所示:

从上面可以看出, squad 函数是通过使用 slerp 的重复球面揷值法构建的 (有关点的重复线性揷值的信息,请参见第 17.1.1 节)。揷值将 通过初始方向 q^i,iϵ[0,,n1] ,但不是通过 a^i 来表示初始位置处的切线方向。

从一个向量旋转到另一个向量(Rotation from One Vector to Another)

常见的操作是通过最短路径从一个方向s转换到另一个方向t。四元数的数学极大地简化了此过程,并显示了四元数与该表示形式的密切关系。首先,将 st 归一化。然后计算称为 u 的单位旋转轴,其计算公式为u=(s×t)/s×t 接下来, e=st=cos(2ϕ)s×t=sin(2ϕ) ,其中 2ϕst 之间的角度。那么表示从 st 旋转的四元数为 q^=(sinϕu,cosϕ) 。实际上,使用半角关系 和三角恒等式简化 q^=(sinϕsin2ϕ(s×t),cosϕ) ,得到 [1197]

(4.56)q^=(qv,qw)=(12(1+e)(s×t),2(1+e)2)

st 指向几乎相同的方向时,以这种方式直接生成四元数(相对于叉积 s×t 的归一化)避免了数值不稳定 [1197]。当 st 指向 相反的方向时,这两种方法都会出现稳定性问题,因为它们会被零除。当检测到这种特殊情况时,可以使用任何垂直于 s 的旋转轴旋转到 t
有时我们需要从 st 旋转的矩阵表示。在对公式 4.46 进行一些代数和三角简化之后,旋转矩阵变为 [1233]

(4.57)R(s,t)=(e+hvx2hvxvyvzhvxvz+vy0hvxvy+vze+hvy2hvyvzvx0hvxvzvyhvyvz+vxe+hvz200001)

在此等式中,我们使用了以下中间计算(intermediate calculations):

(4.58)v=s×te=cos(2ϕ)=sth=1cos(2ϕ)sin2(2ϕ)=1evv=11+e

可以看出,由于简化,所有平方根和三角函数都消失了,因此这是创建矩阵的有效方法。请注意,公式 4.57 的结构类似于公式 4.30 的结 构,并请注意,后一种形式是怎样做到不需要三角函数。
请注意,当 st 平行或接近平行时必须小心,因为 s×t0 。如果 ϕ0 ,那么我们可以返回单位矩阵。但是,如果 2ϕπ ,那 么我们可以绕任何轴旋转 π 弧度。该轴可以作为 s 与不平行于 s 的任何其他向量之间的叉积找到(第 4.2.4 节)。莫勒和休斯使用 Householder 矩阵以不同的方式处理这种特殊情况 [1233]。

4.4 顶点混合 Vertex Blending#

想象一下,数字角色的手臂使用前臂和上臂两部分进行动画处理,如图 4.11 左侧所示。该模型可以使用刚体变换进行动画处理(第 4.1.6 节)。但是,这两个部分之间的关节将不会像真正的肘部。这是因为使用了两个单独的对象,因此,关节由来自这两个单独的对象的重叠部分组成。显然,最好只使用一个对象。但是,静态模型零件无法解决使接头具有柔性的问题。

顶点混合(Vertex blending)是解决此问题的一种流行解决方案 [1037,1903]。该技术还有其他几个名称,例如线性混合蒙皮(linear-blend skinning),包络(enveloping)或骨架子空间变形(skeleton-subspace deformation)。虽然此处介绍的算法的确切来源尚不清楚,但定义骨骼并使蒙皮对变化做出反应是计算机动画中的一个古老概念 [1100]。在最简单的形式中,前臂和上臂像以前一样分别进行动画处理,但是在关节处,两个部分通过有弹性的“蒙皮”相连。因此,该弹性部件将具有一组由前臂矩阵转换的顶点和另一组由上臂矩阵转换的顶点。与每个三角形使用单个矩阵相反,这导致三角形的顶点可以通过不同的矩阵进行变换。见图 4.11。

可以看出,由于简化,所有平方根和三角函数都消失了,因此这是创建矩阵的有效方法。请注意,公式 4.57 的结构类似于公式 4.30 的结 构,并请注意,后一种形式是怎样做到不需要三角函数。
请注意,当 st 平行或接近平行时必须小心,因为 s×t0 。如果 ϕ0 ,那么我们可以返回单位矩阵。但是,如果 2ϕπ ,那 么我们可以绕任何轴旋转 π 弧度。该轴可以作为 s 与不平行于 s 的任何其他向量之间的叉积找到(第 4.2.4 节)。莫勒和休斯使用 Householder 矩阵以不同的方式处理这种特殊情况 [1233]。

通过进一步执行这一步骤,可以使单个顶点可以通过几种不同的矩阵进行变换,并将得到的位置加权并混合到一起。这是通过为动画对象设置骨骼来完成的,其中每个骨骼的变换可能会通过用户定义的权重影响每个顶点。由于整个手臂可能是“弹性的”,即所有顶点可能受到多个矩阵的影响,因此整个网格(mesh)通常称为(骨骼上的)蒙皮(skin)。见图 4.12。许多商业建模系统都具有相同的骨架骨骼建模功能。尽管名称如此,骨骼并不一定必须是刚性的。例如,Mohr 和 Gleicher [1230]提出了添加附加关节以实现诸如肌肉隆起等效果的想法。James 和 Twigg [813]讨论了使用可以挤压和拉伸的骨骼的动画蒙皮。

在数学上,这用公式 4.59 表示,其中 p 是原始顶点,而 u(t) 是变换后的顶点,其位置取决于时间 t :

(4.59)u(t)=i=0n1wiBi(t)Mi1p, where i=0n1wi=1,wi0

n 个骨骼影响 P 的位置,这在世界坐标中表示出来。值 wi 是顶点 p 的骨骼 i 的权重。 Mi 矩阵从初始骨骼的坐标系转换为世界坐标。 通常,骨骼的控制关节位于其坐标系的原点。例如,前臂骨骼将其肘关节移动到原点,而动画旋转矩阵将手臂的这一部分绕关节移动。 Bi(t) 矩阵是第 i 个骨骼的世界变换,会随着时间变化以对对象进行动画处理,并且通常是多个矩阵的串联,例如以前的骨骼变换的层次 结构和局部动画矩阵。

Woodland [1903]深入讨论了一种维护和更新 Bi(t) 矩阵动画函数的方法。每个骨骼都将一个顶点转换到相对于其自己的参昭系的位置, 并从一组计算点中揷值最终位置。在一些蒙皮讨论中末明确显示矩阵 Mi ,而是将其视为 Bi(t) 的一部分。我们在这里介绍它是因为它是 有用的矩阵,并且几乎总是矩阵级联过程的一部分。
在实践中,对于动画的每一帧,为每个骨骼连接矩阵 Bi(t)Mi1 ,并且每个结果矩阵都用于变换顶点。顶点 P 由不同骨骼的级联矩阵 转换,然后使用权重 wi 进行混合,因此称为顶点混合(vertex blending)。权重是非负的,并且总和为 1 ,因此发生的事情是将顶点转换 到几个位置,然后在其中进行揷值。这样,对于所有的 i=0n1 ,变换后的点 u 将位于点集 Bi(t)Mi1p( 固定的 t) 的凸包中。 通常也可以使用公式 4.59 转换法线。根据所使用的变换 (例如,如果骨骼被拉伸或压扁了很多),可能需要对 Bi(t)Mi1 的逆进行转 置,如第 4.1.7 节中所述。
顶点混合非常适合在 GPU 上使用。网格中的顶点集可以放置在静态缓冲区中,该缓冲区会一次发送到 GPU 并重新使用。在每个框架 中,只有骨骼矩阵会发生变化,而顶点着色器会计算它们对存储的网格的影响。这样,可以最大程度地减少在 CPU 上处理和从 CPU 传 输的数据量,从而使 GPU 可以有效地渲染网格。如果可以将模型的整个骨矩阵一起使用,则是最简单的。否则,必须拆分模型并复制一 些骨骼。或者,可以将骨骼变换存储在顶点访问的纹理中,从而避免达到寄存器存储限制。通过使用四元数表示旋转,每个变换可以仅存 储在两个纹理中 [1639]。如果可用,无序访问视图存储将允许重新使用蒙皮结果 [146]。

我们可以指定超出 [0,1] 范围或不等于 1 的权重集。但是,这仅在使用某些其他混合算法 (例如变形目标,morph targets) (第 4.5 节) 时才有意义。
基本顶点融合的一个缺点是可能发生不必要的折叠,扭曲和自相交 [1037]。见图 4.13。更好的解决方案是使用双季铵盐 [872,873]。这 种执行蒙皮的技术有助于保持原始变换的刚度,因此避免了四肢的“糖果包裏”扭曲。计算量不到线性蒙皮混合的成本的 1.5 倍,并且效果 很好,这导致该技术的快速采用。然而,双四元数蒙皮会导致鼓起效果,Le 和 Hodgins [1001]提出了旋转中心蒙皮作为更好的选择。他 们基于这样的假设:局部变换应该是刚体,并且具有相似权重 wi 的顶点应该具有相似的变换形式。预先为每个顶点计算旋转中心,同时 施加正交 (刚体) 约束以防止肘关节塌陷和糖果包装纸扭曲伪像(candy wrapper twist artifacts)。在运行时,该算法类似于线性混合蒙皮,因为 GPU 在旋转中心执行线性混合蒙皮,随后执行四元数混合步骤。

图4.13。左侧显示了使用线性混合蒙皮时关节处的问题。在右侧,使用双四元数混合可以改善外观。(图片由Ladislav Kavan等人提供,Paul Steed [1693]提供模型。)

4.5 形变 Morphing#

在执行动画时,从一个三维模型变形到另一个三维模型可能会很有用 [28、883、1000、1005]。想象一下,一个模型在时间 t0 显示,我 们希望它在时间 t1 变成另一个模型。对于介于 t0t1 之间的所有时间,都使用某种揷值获得了连续的“混合”模型。变形的一个例子如图 4.14 所示。
变形 (Morphing) 涉及解决两个主要问题,即顶点对应问题(the vertex correspondence problem) 和揷值问题 (the interpolation problem)。给定两个任意模型,这些模型可能具有不同的拓扑 (topologies),不同的顶点数量和不同的网格连接性,通常必须从建立 这些顶点对应关系开始。这是一个困难的问题,并且在该领域已经进行了很多研究。我们推荐感兴趣的读者阅读 Alexa 的调查 [28]。
但是,如果两个模型之间已经存在一对一的顶点对应关系,则可以在每个顶点的基础上进行揷值。也就是说,对于第一个模型中的每个顶 点,在第二个模型中必须仅存在一个顶点,反之亦然。这使揷值变得容易。例如,线性揷值可以直接在顶点上使用 (其他进行揷值的方法 请参见第 17.1 节)。

图4.14。顶点变形。为每个顶点定义了两个位置和法线。在每个帧中,中间位置和法线由顶点着色器线性插值。(图片由NVIDIA Corporation提供。)

为了计算时间 t[t0,t1] 的变形顶点,我们首先计算 s=(tt0)/(t1t0) ,然后进行线性顶点混合,

(4.60)m=(1s)p0+sp1

其中 P0P1 对应于同一顶点,但是在不同的时间, t0t1

用户具有更直观控制的变形变体称为变形目标(morph targets)或混合形状(blend shapes) [907]。基本思想可以使用图 4.15 进行解释。

图4.15。在给定两个嘴部姿势的情况下,将计算一组差异向量以控制插值甚至外推。在变形目标中,差异向量用于将运动“添加”到中性面上。对于差异向量使用正权重,会露出笑容,而负权重会产生相反的效果。

我们从一个中性模型开始,在这种情况下,它是一张脸。让我们用 N 表示该模型。此外,我们还有一组不同的脸部姿势。在示例中只有 一个姿势,即一张笑脸。通常我们可以允许 k1 个不同的姿势,表示为 Pi,i[1,,k] 。作为预处理,“差异面”的计算公式为:Di=PiN ,即,从每个姿势中减去中性模型。

在这一点上,我们有一个中性模型 N 和一组差异姿势 Di 然后可以使用以下公式获得变形模型 M :

(4.61)M=N+i=1kwiDi

这是中性模型,最重要的是,我们使用权重 wi 添加所需的不同姿势的特征。对于图 4.15,设置 w1=1 可使我们恰好位于揷图中间。使 用 w1=0.5 给我们一个半张微笑的脸,依此类推。你可以使用负权重,也可以使用大于 1 的权重。
对于这个简单的脸部模型,我们可以添加另一只眉毛“悲伤”的脸。负重的眉毛会产生“快乐”的眉毛。由于位移是累加的,因此该眉毛姿势 可与笑脸姿势一起使用。
变形目标 (Morph targets) 是一种强大的技术,可为动画师提供很多控制,因为模型的不同特征可以独立于其他特征进行操纵。Lewis 等。[1037] 引入了姿势空间变形,它结合了顶点融合和顶点变形目标。Senior [1608]使用预先计算的顶点纹理来存储和检索目标姿势之 间的位移。支持流输出的硬件和每个顶点的 ID 允许在单个模型中使用更多目标,并且可以在GPU上专门计算效果 [841,1074] 。使用低 分辨率网格,然后通过细分阶段和位移映射生成高分辨率网格,可以避免在高度详细的模型中为每个顶点蒙皮的成本 [1971]。

图 4.16。角色 Delsin 在《声名狼藉:私生子(inFAMOUS:Second Son)》中的脸部使用混合形状进行了动画处理。所有这些拍摄都使用相同的静止姿势面孔,然后修改不同的权重以使面孔看起来有所不同。(图像由 Naughty Dog LLC 提供。inFAMOUS Second son c 2014 Sony Interactive EntertainmentLLC。inFAMOUS Second Son 是 Sony Interactive Entertainment LLC 的商标。由 Sucker Punch Productions LLC开发。)

图 4.16 显示了同时使用蒙皮和变形的真实示例。Weronko 和 Andreason [1872]在《 教团 : 1886 (The Order : 1886)》中使用了蒙皮和变形。

4.6 几何缓存回放 Geometry Cache Playback#

在剪辑场景(cut scenes)中,可能希望使用极高质量的动画,例如,对于无法使用上述任何方法表示的运动。天真的方法是存储所有帧 的所有顶点,从磁盘读取它们并更新网格。但是,对于短动画中使用的 30,000 个顶点的简单模型,这可能达到 50MB/s 。 Gneiting [545] 提出了几种将内存成本降低到大约10%的方法。
首先,使用量化 (quantization) 。例如,位置和纹理坐标使用每个坐标的 16 位整数存储。在执行压缩后无法恢复原始数据的意义上,这 一步骤是有损的。为了进一步减少数据,进行了空间和时间预测,并对差异进行了编码。对于空间压缩,可以使用平行四边形预测 [800]。对于三角形带(triangle strip),下一个顶点的预测位置就是当前三角形在边缘周围的三角形平面中反射的三角形,从而形成平 行四边形 (parallelogram) 。与新位置的差异接下来会被编码 (encoded) 。有了良好的预测,大多数值将接近零,这对于许多常用的压缩方案是十分理想的。与 MPEG 压缩类似,在时间维度上也会进行预测。也就是说,每 n 帧执行一次空间压缩。在这两者之间,将在时间维度上进行预测,例如,如果某个特定顶点通过增量向量从帧 n1 移动到帧 n ,则很可能以与帧 n+1 相似的量移动。这些技术减少了存储量,从而足以使该系统用于实时流数据。

4.7 投影 Projections#

在实际渲染场景之前,必须将场景中的所有相关对象投影到某种平面或某种简单体积上。此后,执行裁剪和渲染(第 2.3 节)。

到目前为止,在本章中看到的变换不影响第四个坐标 w 分量。也就是说,点和向量在转换后保留了其类型。另外,在 4×4 矩阵中,最 底行始终为 (0001) 。透视投影矩阵 (Perspective projection matrices) 是这两个属性的例外: 下一行包含矢量和点操作数,并且经常需 要齐次化 (homogenization) 过程。也就是说, w 通常不为 1 ,因此需要除以 w 才能获得非齐次点。在本节中首先讨论的正交投影 (Orthographic projection) 是一种更简单的投影类型,也很常用。它不会影响 w 分量。

在本部分中,我们假设观看者沿着相机的负 z 轴看,y 轴指向上方,x 轴指向右侧。换言之,这是一个右手坐标系。在某些文章和软件里(例如 DirectX)使用的是左手坐标系,在这些系统中,观看者沿着相机的正 z 轴看。这两种系统都是同等有效的,最后达到的效果是相同的。

图4.17。由公式 4.62 生成的简单正投影的三种不同视图。当观看者沿者负 z 轴看时,可以看到此投影,这意味䒴该投影仅跳过 (或设置 为零) z 坐标,同时保持 xy 坐标。请注意, z=0 两侧的对象都投影到投影平面上。

4.7.1 正交投影 Orthographic Projection#

正交投影的特征是平行线在投影之后保持平行。当使用正交投影观看场景时,无论与相机的距离如何,对象都保持相同的大小。矩阵 Po ,如下所示,是一个简单的正投影投影矩阵,它使一个点的 xy 分量保持不变,而将 z 分量设置为零,即正投影在平面 z=0 上:

(4.62)Po=(1000010000000001)

这种投影的效果如图 4.17 所示。显然, Po 是不可逆的,因为它的行列式 |Po|=0 。换句话说,变换从三维下降到二维,并且无法检索 下降的维数。使用这种正交投影进行查看时存在的问题是,它将正 z 点和负 z 值的点都投影到投影平面上。通常将 z 值 (以及 xy 值) 限制为一定的间隔是很有用的,例如从 n (近平面) 到 f (远平面)。这是下一个变换的目的。
用于执行正交投影的更常见矩阵由六元组 (l,r,b,t,n,f) 表示,分别表示左侧(left),右侧(right),底部 (bottom),顶部 (top), 近侧 (near) 和远侧 (far) 平面。该矩阵缩放并将由这些平面形成的与轴对齐的边界框 (axis-aligned bounding box) (缩写为 AABB; 请参见第22.2节中的定义) 转换为以原点为中心的与轴对齐的立方体。 AABB 的最小角为 (l,b,n) ,最大角为是 (r,t,f) 。重要的是要意识到 n>f ,因为我们正在向下看 z 轴的负空间。我们的常识是,接近值应该比远端值低,因此,可以让用户 按原样提供它们,然后在内部对它们取反 (negate)。
在 OpenGL 中,与轴对齐的立方体的最小角为 (1,1,1) ,最大角为 (1,1,1) 。在 DirectX 中,范围是 (1,1,0)(1,1,1) 。此立 方体称为规范视图体 (canonical view volume),而该体积中的坐标称为规范化设备坐标 (normalized device coordinates) 。变换过程 如图 4.18 所示。变换为标准视图体积的原因是在此处能够更有效地执行裁剪(clipping)。

图4.18。变换规范视图体(canonical view volume)上的轴对齐框(axis-aligned box)。首先平移左侧的框,使其中心与原点重合。然后将其缩放以获取规范视图体的大小,如右侧所示。

变换为标准视图体(canonical view volume)后,将要渲染的几何图形的顶点裁剪(clipped)到该立方体上。最后,通过将剩余的单位正方形映射到屏幕来渲染不在立方体之外的几何图形。此正交变换如下所示:

(4.63)Po=S(s)T(t)=(2rl00002tb00002fn00001)(100l+r2010t+b2001f+n20001)=(2rl00r+lrl02tb0t+btb002fnf+nfn0001).

如该公式所示, Po 可以写为平移的串联 T(t) ,后面是缩放矩阵 S(s) ,其中s=(2/(rl),2/(tb),2/(fn))t=((r+l)/2,(t+b)/2,(f+n)/2) 。该矩阵是可逆的,(5),即 Po1=T(t)S((rl)/2,(tb)/2,(fn)/2)
在计算机图形学中,投影后最常使用左手坐标系(left-hand coordinate system),即对于视口, x 轴向右, y 轴向上,而 z 轴进入视 口。因为按昭我们定义 AABB 的方式,远值(far)小于近值(near),所以正交变换(orthographic transform)将始终包含镜像变换 (mirroring transform)。要看到这一点,可以说原始的AABB尺寸与目标尺寸相同,即规范的视图体积。然后,AABB 的坐标是 (l,b,n)(1,1,1)(r,t,f)(1,1,1) 。将其应用于公式 4.63 可得出

(4.64)Po=(1000010000100001)

这是一个镜像矩阵 (mirroring matrix)。正是这种镜像将右手观察坐标系 (从负 z 轴向下看) 转换为左手标准化设备坐标。
DirectX 将 z 深度 ( z-depth) 映射到 [0,1] 范围,而不是OpenGL的 [1,1] 。这可以通过在正交矩阵之后应用简单的缩放和平移矩阵来实 现,即

(4.65)Mst=(10000100000.50.50001)

因此,Direct X 中使用的正交矩阵为

(4.66)Po[0,1]=(2rl00r+lrl02tb0t+btb001fnnfn0001)

由于 DirectX 使用行优先格式编写矩阵,因此通常以转置形式呈现。

4.7.2 透视投影 Perspective Projection#

透视投影比正交投影更复杂的变换是透视投影,它通常在大多数计算机图形应用程序中使用。在这里,平行线在投影后通常不平行; 相反,它们可能会在极端情况下收敛到单个点。透视更紧密地匹配我们如何感知世界,即,更远的物体更小。

首先,我们将对投影到平面 z=d,d>0 上的透视投影矩阵进行推导。我们从世界空间中推导,以简化对世界视图转换的理解。此推 导之后是例如 OpenGL [885] 中使用的更常规的矩阵。

图4.19。用于导出透视投影矩阵 (perspective projection matrix) 的符号。将点 p 投影到平面 z=d,d>0 上,得出投影点 q 。投影是 从摄影机位置的角度进行的,在本例中为原点。右侧的 x 分量显示了推导中使用的相似三角形。

假设摄像机 (视点) 位于原点,并且我们要将一个点 p 投影到平面 z=d,d>0 ,从而产生一个新点 q=(qx,qy,d) 。图4.19 描绘了这种情况。从该图所示的相似三角形中,得出 qx 分量的以下推导:

(4.67)qxpx=dpzqx=dpxpz

q 的其他分量的表达式为 qy=dpy/pz (类似于 qx 获得), qz=d 。与上面的公式一起,它们给出了透视投影矩阵 Pp ,如下所示:

(4.68)Pp=(100001000010001/d0)

该矩阵可产生正确的透视投影,可通过以下方式确认

(4.69)q=Ppp=(100001000010001/d0)(pxpypz1)=(pxpypzpz/d)(dpx/pzdpy/pzd1)

最后一步来自以下事实:整个矢量除以 w 分量 (在这种情况下为 pz/d ),最后得到 1。由于我们要投影到该平面上,因此所得的 z 值始终为 d

从直觉上讲,很容易理解为什么齐次坐标允许投影。齐次化过程的一种几何解释是将点 (px,py,pz) 投影到平面 w=1 上。
与正交变换 (orthographic transformation) 一样,还有一个透视变换(perspective transform),而不是实际投影到平面 (不可逆) 上, 而是将视雉从视雉变换为前述的规范视像体。在这里,视雉视点假定从 z=n 开始并在 z=f 结束,且 0>n>fz=n 处的矩形的 最小角为 (l,b,n) ,最大角为 (r,t,n) 。如图 4.20 所示。

图4.20。矩阵 Pp 将视雉体 (view frustum) 转换为单位立方体,称为标准视域 (canonical view volume)

参数 (l,r,b,t,n,f) 确定摄像机的视雉 (view frustum) 。水平视野由视雉的左右平面(由 lr 决定) 之间的角度确定。以相同的方式,垂直视野由顶平面和底平面之间的角度(由 tb 确定)确定。视野越大,相机“看得越多”。可以通过 rltb 来创建不对称视雉 (Asymmetric frusta) 。不对称视雉可用于立体观看(stereo viewing)和虚拟现实(virtual reality)(第 21.2.3 节)。
视野 (the field of view) 是提供场景感的重要因素。与计算机屏幕相比,眼睛本身具有物理视野。这种关系是

(4.70)ϕ=2arctan(w/(2d))

其中 ϕ 是视野, w 是垂直于视线的物体的宽度, d 是到物体的距离。例如,一个 25 英寸的显示器大约为 22 英寸宽。在 12 英寸远处, 水平视野为 85 度;在 20 英寸处为 58 度; 在 30 英寸, 40 度 可以使用相同的公式将摄像机镜头的尺寸转换为视野,例如,对于 35 mm 摄像机的标准 50 mm 镜头 (镜框尺寸为 36 mm ), ϕ=2arctan(36/(2.50))=39.6 度。
与物理设置相比,使用更窄的视野将减少透视效果,因为观看者将放大场景。设置较宽的视野将使对象看起来失真 (例如使用广角相机镜 头),尤其是在屏幕边缘附近,并且会放大附近对象的比例。然而,较宽的视野使观看者感觉到物体更大并且更令人印象深刻,并且具有 向用户提供有关周围环境的更多信息的优点。
公式 4.71 给出了将视雉转化为单位立方体的透视变换矩阵:

(4.71)Pp=(2nrl0r+lrl002ntbt+btb000f+nfn2fnfn0010)

将转换应用到一个点后,我们将得到另一个点 q=(qx,qy,qz,qw)T 。此时的 w 分量 qw (通常) 将为非零且不等于1。要获得投影点P, 我们需要除以 qw ,即

(4.72)p=(qx/qw,qy/qw,qz/qw,1)

矩阵 Pp 总是看到 z=f 映射为 +1,z=n 映射为 1
远平面以外的对象将被裁切,因此不会出现在场景中。另外,透视投影可以令远平面取到无穷远,这使公式 4.71 变为

(4.73)Pp=(2nrl0r+lrl002ntbt+btb00012n0010)

综上所述,应用透视变换 (以任何形式) Pp ,然后进行裁腮和齐次化 (除以 w ),从而得到标准化的设备坐标。
为了获得在 OpenGL 中使用的透视变换,出于与正交变换相同的原因,首先将其与 S(1,1,1,1) 相乘。这仅会使公式 4.71 第三栏中的 值取反。在应用此竸像侃换之后,将近距和远距值输入为正值,且 0<n<f ,如传统上将其呈现给用户一样。但是,它们仍然代表沿 世界负 z 轴 (即视线方向) 的距离。出于参考目的,以下是 OpenGL 中的公式:

(4.74)POpenGL =(2nrl0r+lrl002ntbr+btb000ffn2fnfn0010)

一个更简掸的设置是仅提供垂直视场 ϕ, 宽高比 a=w/h (其中 w×h 是屏幕分辨率), nf 。这导致了

(4.75)POpenGL=(c/a0000c0000f+nfn2fnfn0010)

其中 c=1.0/tan(ϕ/2) 。该矩阵的作用与旧的 gluperspective() 完全一样,后者是OpenGL Utility Library (GLU) 的一 部分。

某些API (例如 DirectX) 将近平面映射到 z=0 (而不是 z=1 ),而将远平面映射到 z=1 。此外,DirectX 使用左手坐标系来定义 其投影矩阵。这意味着 DirectX 沿 z 轴正方向看,并以正数表示近和远值。这是 DirectX 公式:

(4.76)Pp[0,1]=(2nrl0r+lrl002ntbt+btb000ffnfnfn0010)

DirectX 在其文档中使用行优先形式,因此此矩阵通常以转置形式发送。
使用透视变换的一种效果是,计算出的深度值不会随输入 pz 值线性变化。使用公式 4.744.76 中的任何一个乘以点 P 我们可以看到

(4.77)v=Pp=(dpz+e±pz)

其中省略了 vxvy 的详细信息,并且常数 df 取决于所选矩阵。例如,如果我们使用公式 4.74 ,则 d=(f+n)/(fn)e=2fn/(fn)vx=pz 。为了获得归一化设备坐标 (NDC) 中的深度,我们需要除以 w 分量, 结果是

(4.78)zNDC=dpz+epz=depz

其中 zNDCϵ[1,+1] 用于 OpenGL投影。可以看出,输出深度 zNDC 与输入深度 pz 成反比。
例如,如果 n=10f=110 (使用 OpenGL 术语),则当 pz 在负 z 轴 (即中点) 下沿 60 个单位时,归一化设备坐标深度值为 0.833 ,而不是 0 。图 4.21 显示了改变近平面到原点的距离的影响。近平面和远平面的放置会影响 z 缓冲区的精度。第 23.7 节将进一步 讨论这种效果。

图4.21。改变近平面到原点的距离的影响。距离 fn 保持恒定为 100 。随着近平面变得更靠近原点,更接近远平面的点将使用较小范 围的归一化设备坐标 (NDC) 深度空间。这具有使 z 缓冲区在较大距离处的准确性降低的效果。

有几种增加深度精度的方法。一种常见的方法 (我们称为反向 z , reversed z ) 是使用浮点深度或整数存储 1.0zNDC [978]。比较如图 4.22 所示。Reed [1472] 通过仿真显示,使用具有反向 z 的浮点缓冲区可提供最佳精度,这也是整数深度缓冲区 (每个深度通常具有24 位) 的首选方法。对于标准映射(即非反向 z ),如 Upchurch 和 Des brun [1803]所建议的,在变换中分离投影矩阵可降低错误率。例 如,在 T=PM 的情况下,使用 P(Mp) 比使用 Tp 更好。同样,在 [0.51.0] 范围内, pp32int24 的精度非常相似,因为 fp32 具 有 23 位的尾数。使 zNDC1/pz 成比例的原因是,它使硬件更简单,并且深度压缩更成功,这将在 23.7 节中详细讨论。

图4.22。使用 DirectX 变换设置深度墴冲区的不同方法,即 zNDC[0,+1] 。左上方: 标准整数深度㹒冲区,此处显示为 4 位精度 ( 因此 y 轴上有 16 个标记)。右上角:远平面设置为 ,两个轴上的微小偏移表明这样做不会损失大多精度。左下:具有 3 个指数位和 3 个尾数 位用于浮点深度。注意,分布在 y 轴上是非线性的,这使得在 x 轴上的分布更糟。右下角: 反转的浮点深度,即 1zNDC ,结果分布更 好。(揷图由内森里德 (Nathan Reed) 提供。)

Lloyd [1063]提出使用深度值的对数来提高阴影贴图的精度。Lauritzen 等。[991]使用前一帧的 z 缓冲区( z-buffer)来确定最大近平面和 最小远平面。对于屏幕空间深度,Kemen [881]建议对每个顶点使用以下重新映射:

(4.79)z=w(log2(max(106,1+w))fc1),[ OpenGL ]z=wlog2(max(106,1+w))fc/2,[ DirectX ]

其中 w 是投影矩阵之后的顶点的 w 值,而 z 是顶点着色器的输出 z 。常数 fcfc=2/log2(f+1) ,其中 f 为远平面。当仅在顶点着色 器中应用此变换时,深度仍将由 GPU 在顶点的非线性变换深度之间在三角形上线性揷值(公式 4.79)。由于对数是单调函数,因此只要 分段线性揷值与精确的非线性变换深度值之间的差异较小,遮挡剔除硬件和深度压缩技术仍将起作用。在大多数情况下,具有足够的几何 细分的情况是正确的。但是,也可以对每个片段应用转换。这是通过输出每个顶点的值 e=1+w 来完成的,然后由 GPU 在三角形上进 行揷值。然后,像素着色器将片段深度修改为 log2(ei)fc/2 ,其中 eie 的内揷值。当 GPU 中没有浮点深度并且使用深度较大的距离 进行渲染时,此方法是不错的选择。

Cozzi [1605]建议使用多视雉 (multiple frusta),这可以提高准确度以有效地达到任何期望的比率。视雉在深度方向上分为几个不重叠的 较小的子视锥,它们的联合恰好是视雉。子视雉表以从后到前的顺序渲染。首先,清除颜色和深度缓冲区,并将所有要渲染的对象分类到 它们重叠的每个子视雉中。对于每个子视锥,设置其投影矩阵,清除深度缓冲区,然后渲染与子视雉重叠的对象。

进一步阅读和资源#

沉浸式的线性代数网站 [1718]提供了一本有关该主题基础知识的互动书籍,通过鼓励您操纵这些数字来帮助建立直觉。来自 realtimerendering.com 的其他交互式学习工具和变换代码库也已链接至此。

Farin和Hansford的《The Geometry Toolbox》 [461]是一本可以毫不费力地增强人们对矩阵直觉的书籍。另一本有用的著作是Lengyel 的 《Mathematics for 3D Game Programming and Computer Graphics》 [1025]。若想从不同的角度来看,那么也有许多计算机图形学的著作,例如 Hearn 和 Baker [689],Marschner 和 Shirley [1129] 和 Hughes 等人的著作 [785] 介绍了矩阵基础知识。Ochiai 等人的课程 [1310]介绍了矩阵基础以及矩阵的指数和对数,以及用于计算机图形学的知识。Graphics Gems 系列 [72,540,695,902,1344]提出了各种与变换相关的算法,并且在线提供了许多此类算法的代码。Golub 和 Van Loan 的 Matrix Computations [556]通常是认真研究矩阵技术的起点。可以在 Lewis 等人的 SIGGRAPH 论文 [1037]中阅读有关骨骼子空间(skeleton-subspace)变形/顶点混合(deformation/vertex blending) 和形状插值(shape interpolation)的更多信息。

哈特等。[674]和汉森 [663]提供了四元数的可视化。Plet inckx [1421]和 Schlag [1566]提出了在一组四元数之间平滑内插的不同方法。Vlachos 和 Isidoro [1820]推导了四元数的C2插值公式。另外,与四元数插值有关的是沿曲线计算一致坐标系的问题, 是由Dougan [374]处理的。

Alexa [28] 和 Lazarus and Verroust [1000]对许多不同的变形技术进行了调查。Parent’s book [1354]是有关计算机动画技术的绝佳来源。

posted @   straywriter  阅读(113)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现
点击右上角即可分享
微信分享提示
主题色彩