【机器视觉】1. 张正友平面标定[转]
张正友的平面标定方法是介于传统标定方法和自标定方法之间的一种方法。它既避免了传统方法设备要求高,操作繁琐等缺点,又较自标定方法精度高,因此张氏标定法被广泛应用于计算机视觉方面,本文尝试对这一标定方法做一介绍。包括:
- 模型, 即如何由光学成像公式和坐标变换方法建立摄像机的参数矩阵
- 算法, 即如何对参数矩阵进行计算
- 优化 , 即如何计算畸变,以及如何对参数进行优化
一、坐标变换
定义[位置(position)描述]
在三维坐标系A下确定空间中一点的位置,用一个 的矢量表示为
定义[姿态(orientation)描述]
在物体上固定一个坐标系B,给出此坐标系相对于参考坐标系A的表达,即在坐标系A中表达坐标系B的三个单位矢量
用旋转矩阵
描述姿态。
定义[位姿(pose)描述]
位置描述和姿态描述统称为位姿(pose)描述。将坐标系B固定在物体上,并考察坐标系B相对于参考坐标系A的位姿,用 表示坐标系B的原点在坐标系A中的位置矢量,用旋转矩阵 表示姿态,那么B相对于A的旋转
旋转矩阵的性质
- -
- - 旋转矩阵中的9个元素只有3个是独立的
- 旋转矩阵是单位正交矩阵, 是单位矢量,且相互垂直
- -
定义[平移坐标变换]
只变换位置不变换姿态
定义[旋转坐标变换]
只变换姿态不变换位置,两个坐标系原点相同
一般坐标变换(位姿变换)方程
定义[齐次坐标变换]
用 的列矢量表示三维空间中的点,称为点的齐次坐标 (Homogeneous coordinate),即 ,那么齐次变换矩阵
且
使用齐次坐标的目的,是为了利用矩阵变换,不仅能表示伸缩与旋转,还能够表示平移。三维点的齐次坐标有形如[x,y,z,w]的形式,设w=1,此时相当于我们把3维的坐标平移搬去了w=1的平面上,也就是4维空间的点投影到w=1平面上,齐次坐标映射的3D坐标是(x/w,y/w,z/w),也就是(x,y,z);(x,y,z)在齐次空间中有无数多个点与之对应。所有点的形式是(kx,ky,kz,k),其轨迹是通过齐次空间原点的“直线”,而每个点相当于3维的世界坐标。
当w=0时,可解释为无穷远的“点”,其意义是描述方向。这也是平移变换的开关,当w=0时,此时不能平移变换了。这个现象是非常有用的,因为有些向量代表“位置”,应当平移,而有些向量代表“方向”,如表面的法向量,不应该平移。从几何意义上说,能将第一类数据当作”点”,第二类数据当作”向量”。可以通过设置w的值来控制向量的意义。
下面对旋转运动的表示与转换进行讨论。
方向余弦矩阵可以用来表示两个坐标系之间的旋转,同样也可以用来表示一个向量绕相同坐标系中某个轴的旋转。讨论一下当它表达两个坐标系之间的选择时的定义方式,如下,假设两组坐标系的基底,分别为:
另外,假设有一个向量a ,那么a 在这两组基底下的投影为:
则
欧拉角适合用于表示两个坐标系之间的旋转。欧拉角方法根据一切旋转都能分解为三次绕空间中不同轴的旋转的原理,表明了一切坐标系的取向,都可以用三个欧拉角来表示。
欧拉角
事实上,欧拉角法可以分为两类,一类是依次旋转三个不同的轴,称为Tait-Bryan
angles,因此可选顺序有:X-Y-Z,X-Z-Y,Y-X-Z,Y-Z-X,Z-X-Y,Z-Y-X;另一类是相邻两次旋转不同的轴,也就是上文介绍的那一类,称为Euler
angles,可选顺序有:X-Y-X,X-Z-X,Y-X-Y,Y-Z-Y,Z-X-Z,Z-Y-Z。由于绕不同的轴旋转最后得到的欧拉角是不同的,因此在用到欧拉角的场合必须指明旋转的顺序。欧拉角表示方法中其实还存在外在旋转和内在旋转的区别,前者是指每次围绕的旋转轴是原始坐标系的轴,后者则是围绕旋转后得到的坐标系的轴。
设欧拉角的旋转顺序与方式为Z-Y-X,并且是内在旋转。下面,我们来推导由欧拉角到旋转矩阵的转换关系。
绕Z轴旋转 角度(从n系到1系),即偏航角(yaw)
绕Y轴旋转 角度(从1系到2系),即俯仰角(pitch)
绕X轴旋转 角度(从2系到b系),即滚转角(roll)
则
以上便定义了由欧拉角到旋转矩阵的转换关系。
二、摄像机模型
摄像机模型中的几个坐标系
- -[世界坐标系(w)] 参考坐标系/基准坐标系,用于描述摄像机和物体的位置
- -[摄像机坐标系(c)] 固定在摄像机上,原点在光心,Zc轴沿光轴方向, Xc/Yc轴分别平行于成像平面
- -[以物理单位表示的图像坐标系 (x, y)] 原点在摄像机光轴与图像平面的交点,x/y轴与摄像机Xc/Yc轴平行,沿图像平面方向
- -[以像素为单位表示的图像坐标系 (u, v)] 原点在数字图像的左上角,u/v轴沿图像平面向右向下为正方向
首先考虑小孔摄相机模型,记空间点在摄像机坐标系中的齐次坐标为 ,它的像点在图像坐标系中的齐次坐标记为 ,相机焦距为f,根据相似三角形有
即
小孔摄相机模型将物体从摄像机坐标系转换到xy坐标系表示,下面我们需要将点向uv坐标系转换,也就是图像数字化。通常我们获取得到的图像是CCD摄像机采集的数字图像,CCD相机是将图像平面的点进行数字离散化。设CCD摄像机数字离散化后的像素是一个矩形,矩形的长与宽分别为dx,dy;主点不是图象坐标系原点,在图像坐标系中坐标为
,则 为CCD摄像机的主点
当uv轴互相垂直时,则
则摄像机内参数矩阵
其中
称为CCD摄像机在u轴和v轴方向上的尺度因子。
当uv轴有夹角 时,则
则摄像机内参数矩阵
其中
以上推导出了摄像机内参数模型,然而,我们一般描述一个三维点,由于相机可能一直在运动,所以我们并不是基于摄像机坐标系下对其描述。我们通常是在世界坐标系下进行描述。摄像机外参数模型就是将物体在世界坐标系中的位置,变换到摄像机坐标系下。摄像机外参数矩阵是一个四阶矩阵
则摄像机参数矩阵(单应矩阵)
三、直接线性变换(DLT)标定
定义[单应性变换]
单应性变换(homography transform)就是一个平面到另一个平面的映射关系。在标定问题里,单应矩阵包括摄像机内外参数矩阵。
我们先举一个简单的例子。在图像拼接中,得到了两张图像的特征匹配,两个点集分别记作X和X';用单应性变换来拟合二者的关系,可表达为 其中 是X'中特征点的坐标, 是X中特征点的坐标,H即是单应性矩阵,代表它们之间的变换关系。H是个3×3的矩阵,有8个自由度,所以待求未知参数有8个 则
整理为Ah=0的形式,其中
由未知变量的个数可知,求解出H至少需要4对匹配点。通常情况下为了得到更稳定的结果,会用到多于4对的特征匹配。所以,这个方程会变成超定的,可以将最小二乘解作为最后的解。方程的最小二乘解有一个既定的结论,即对A进行SVD分解,A的最小的奇异值对应的右奇异向量即是h的解。
证明:解方程Ah=0等价于优化问题
因为U是单位正交矩阵,所以
令 ,则方程等价于
由于 是一个对角矩阵,对角元的元素按递减的顺序排列,因此最优解在 取得,就是V的最小奇异值对应的列向量,即V的最后一列。Q.E.D.
回到标定问题,当uv坐标系中u垂直于v时,若不考虑畸变,那么
摄像机矩阵
将M的元素作为未知数,矩阵展开消去 ,对于n个已知的空间点,得到2n个关于M的方程
设
则 在相差一个常数因子 的前提下,确定M,设 ,平移向量 旋转矩阵 则
四、张氏标定法:摄像机参数的估计
张正友平面标定法的前提
- 认为内参数矩阵
- 标定物:平面靶标
- 将世界坐标系置于靶标平面,原点设在靶标一角,Xw/Yw方向沿靶标平面,Zw方向垂直于靶标平面
- 先不考虑畸变,标定摄像机参数,得到参数的线性初值;然后利用线性初值,进行非线性标定,得到畸变参数
因此,在
中令 , 则
令
则
对于n个特征点
对A进行SVD分解,即$A=U\Sigma V^T$,则以上方程的解是V的最后一列。
假如考虑噪声影响,假设噪声为零均值高斯噪声,方差矩阵为 ,由最大似然估计求解单应矩阵H,或定义目标函数F,求解H 使F取到最小
实际应用中假设 ,则 使用不考虑噪声情况下得到的单应矩阵H作为初值计算 通过Levenburg-Marquardt算法求出H的最终解。
H是一个齐次矩阵,所以有8个未知数,至少需要8个方程,每对对应点能提供两个方程,所以至少需要四个对应点,就可以算出世界平面到图像平面的单应性矩阵H。这样得到的H,计算结果与真实解相差一个常数因子,即
那么
由于旋转矩阵是个酉矩阵, 和 正交,即
可得约束条件
即每个单应性矩阵能提供两个方程,而内参数矩阵包含5个参数,要求解,至少需要3个单应性矩阵。为了得到三个不同的单应性矩阵,我们使用至少三幅棋盘格平面的图片进行标定。通过改变相机与标定板之间的相对位置来得到三个不同的图片。假如只有两幅图片,那么 将不能估计,也就是认为数字图像坐标系uv相互垂直( )。记
则
可以看到,B是一个对称阵,所以B的有效元素为六个,让这六个元素写成向量b,即
那么
利用约束条件可得
我们至少需要三幅包含棋盘格的图像,可以计算得到B,然后通过Cholesky分解得到相机的内参数矩阵K,首先计算出
然后定义
于是内参数
而外参数
考虑到R是单位正交阵,因此对R进行奇异值分解就有 ,其中U和V通过对 的特征向量作正交化单位化得到。
五、张氏标定法:畸变的估计
张氏标定法只关注了影响最大的径向畸变,并忽略四阶以上的畸变量
其中 表示角点在成像面上的实际坐标, 表示角点在成像面上的理想坐标。将畸变模型转换到数字图像坐标进行求解
其中,(u,v)是理想的像素坐标, 是实际的像素坐标。 代表主点,则
即
简记为
那么
上述的推导结果是基于理想情况下的解,但由于可能存在高斯噪声,所以使用最大似然估计进行优化。设我们采集了n副包含棋盘格的图像进行定标,每个图像里有棋盘格角点m个。令第i副图像上的角点 在上述计算得到的摄像机矩阵下图像上的投影点为:
其中Ri和ti是第i副图对应的旋转矩阵和平移向量,K是内参数矩阵。则角点的概率密度函数为:
似然函数
让L取得最大值,即让
最小。这里使用的是多参数非线性系统优化问题的Levenberg-Marquardt算法进行迭代求最优解。
六、Levenburg-Marquardt算法
通常的最小二乘问题都可以表示为
对 在 处作泰勒展开
其中Jacobi矩阵
记 那么
即F(x)的梯度
下面讨论利用数值最优化方法求解非线性最小二乘问题的过程。
最速下降法
假设 ,则h是F(x)下降方向,即对于任意足够小的 ,都满足
则
其中为矢量h和F'(x)夹角,当 时,下降最大。即 是最快下降方向。
高斯-牛顿算法
选择h使得F(x)在 附近二阶近似,则
则
即
直到
高斯-牛顿法可以看做使用Hessian矩阵的最速下降法
即
LM算法
通常高斯牛顿法收敛较快,但是不稳定,且要求 非奇异。而梯度下降法稳定,但是收敛较慢。所以接下来我们介绍高斯牛顿算法和最速下降法混合法,即Levenburg-Marquardt算法,即加入正则项使得
记其解为 ,则
- ,即为Gauss-Newton法
- 当 充分大时 ,即为最速下降法
- 特别当
因为
所以定义增益比 则
- - 在实际中,我们选择一阶近似、二阶近似并不是在所有定义域都满足的,而是在 作用域内满足这个近似条件。
- - 当 较大时,表明F(x+h)的二阶近似L(h)比F(x+h)更加接近于F(x),因此二阶近似比较好,所以可以减小 ,采用更大的迭代步长,接近Gauss-Newton法来更快收敛;
- - 当 较小时,表明采取的二阶近似较差,因此通过增大 ,采用更小的步长,接近最速下降法来稳定的迭代。
LM算法伪代码
总结:张正友平面标定法伪代码
张氏标定法伪代码