SVO深度解析(二)之跟踪部分
本篇博客总结了SVO的前端跟踪部分
转载请说明出处:
http://blog.csdn.net/zhubaohua_bupt/article/details/74910568
2 跟踪部分
跟踪部分主要干了两件事
<1>通过图像对齐,计算一个粗糙的位姿
<2>建立一个当前帧的局部地图,根据地图,对位姿进一步优化。
2.1图像对齐
图像对齐的目的是迭代计算帧间位姿。
用于图像对齐的地图点是上一帧所能看到的地图点,按先验知识来讲,图像帧间变换比较小,
我们有理由相信上一帧和当前帧所能看到场景大部分相同。
其过程如下,
1找到前帧(K-1)看到的地图点p1,p2,p3。
2投影至后帧(k)二维图像上,
3然后最小化灰度误差函数(这是一个最优化过程,又称图像对齐),得到位姿,over。
2.2 通过局部地图对当前帧位姿优化
虽然上一帧能看到的地图点和当前帧已经重合大部分,但仍有一部分当前帧能看到的视野,
上一帧看不到(比图下图p1,p2,p3,p4)。我们知道,当前帧和之前看到的视野重合率越高,
优化的位姿就越趋于准确,那么,除了上一帧,有没有其他帧和当前帧视野重合呢?
肯定是有的,那把这些帧(如下图Ir1和Ir2)都扒出来
(通常是关键帧,因为这些帧既保证视野重复率不是太高,而且位姿相对与普通帧较准确),
用于优化当前帧位姿。这就是本步骤要干的事情。
这些帧称之为局部关键帧,其看到的地图点集合称之为局部地图。
2.2.1 局部地图的构建
2.2.1.1 五点的构建
SVO采用的5点法来构建局部地图,思想是构建关键帧的时候,顺便在关键帧图像上找到5个特征点,
分布如下
上图中,红色点代表提取的普通特征点,蓝色点代表5点法提取的特征点,
看到这里,5点怎么提取应该一目了然了吧,即提取左上、左下、右上、右下和中间的特征点作为5点。
其实现在Frame.cpp里setKeyPoints(),checkKeyPoints()函数有个错误,稍微看一下就能看到。
2.2.1.2 局部地图的构建
当前帧之前的每一个关键帧都有5点分布,那么选哪些关键帧作为局部优化关键帧呢?
也就是5点在筛选局部关键帧时有啥用呢?
SVO这样用:把每个关键帧上的5点投影至当前帧,只要投影上任何一个,
就把对应关键帧以及关键帧与当前帧的距离记录下来,
然后,按距离排序,取前n个关键帧,作为局部关键帧,关键帧上的地图点为局部地图。
实现在Reprojector.cpp里,具体位置如下
2.2.2优化位姿
这里先说一下一个概念:
重投影误差:地图点P在当前帧的投影点p1和P与当前帧匹配的像素点p2之间的几何像素距离。
优化位姿的前提是找到局部地图点与当前帧像素的匹配关系,
然后,利用匹配关系,通过缩小的地图点的重投影,来优化位姿。
2.2.2.1 地图点是什么,与每一帧的关系是什么?
地图点通常又叫做地标点(landmark),它是在关键帧中提取的特征点,被赋予深度后的三维点。
在RGBD和双目的SLAM里,关键帧中提取的特征点伴随着深度信息,经过筛选直接就能放入地图。
但是,在单目SLAM里,关键帧中刚提取的特征点,并没有深度信息,需要经过一段时间的不断估计,
认为深度比较准确后,才把该特征点对应的三维点放入地图。
也就是说,地图点的来源是关键帧,
作用: 1 优化帧的位姿(缩小重投影误差函数)
2 建立稀疏地图
那么,地图点与普通帧和关键帧有没有其他联系呢?
实际上,在VSLAM工作一段时间后,无论是双目,RGBD还是单目,
图像帧的位姿一般都是通过PNP来估计的,PNP的过程可表述为,
三维地图点到当前帧的投影,然后建立误差函数(直接法:灰度,特征点法:距离)来优化位姿。
那么,地图点与帧(包括普通帧和关键帧)的关系就是,用地图点估计并优化该帧的位姿。
2.2.2.2 地图点和当前帧找匹配关系
对于局部地图里的每个地图点P,都被当前帧(CF)之前的多个关键帧KFS看到过,
也就是说,对于一个地图点P,我们能找到观测到它的所有关键帧集合。
代码里,存储在Point的obs_数据结构里面。
<1>和谁匹配?
匹配不但需要P的坐标,而且还需要P的描述,用来计算相似度(要不然怎么知道是否匹配上了呢)。
对于每一个地图点P,都关联着许多关键帧(或者说,许多关键帧都看到过它),
也就是说,点P的描述可以来源于其中的任何关键帧。那么,选择哪个关键帧上的描述和当前帧匹配呢?
SVO是这样做的:选择观测角度(地图点与不同时刻相机的光心连线)与当前帧比较小的那个关键帧,
作为匹配描述。
这个做法也很好理解,毕竟夹角越小,两帧图像位姿差异越小,
地图点在两幅图像上(一个是关键帧,另一个是当前帧)的描述越相似,越容易匹配成功嘛。
<2>怎么匹配?
匹配策略:网格法匹配。
为什么要网格法匹配?
我们知道,理论上,三个不在一条线上的点能确定一个平面。
实际上,在SLAM;里,地图点都是有误差的,如果这三个点离的很近,
那么确定的平面精度没有离得远时确定的平面准确,
在SLAM中,这个平面就是图像平面。如果我们能保证地图点在当前帧图像平面上投影的比较均匀,
那么,用这些地图点估计的位姿也就比较准确。
怎么进行网格法匹配?
在当前帧上画一个虚拟的网格,统计每个网格里投影上的地图点,然后把地图点按质量排序。
对于某个网格,按地图点质量从前往后匹配,只要匹配成功一个,
此网格就不接受其他地图点的匹配了,这样就保证了地图点在当前帧上的均匀匹配。
实现在reprojector.cpp里的reprojectMap()函数里。
匹配方式:特征对齐(feature alignment)
首先,找到选择观测角度最小的关键帧;
然后,计算两帧之间的仿射矩阵;
其次,找到关键帧中最适合匹配的那一层(已经有图像金字塔)
最后,用LK光流法完成地图点与图像像素点的匹配(实现在feature_alignment.cpp里)。
匹配不是在极线上搜索的。
匹配的原理如下,
用图像块计算灰度误差没什么好说的,光流嘛,注意这里,
由于两帧(参与匹配的关键帧和当前帧)有位姿差异,两个匹配窗口需要经过仿射变化(Ai)。
2.2.2.3 优化位姿
通过以上步骤,就找到了局部地图点与当前帧的匹配关系。接下来,根据匹配关系,优化位姿。
优化位姿的思想是缩小重投影误差函数,误差函数如(14)。
其中ui是匹配点,π(T,)是经过不太精确的位姿,投影到当前帧的投影点。
当误差函数最小时,认为此时的位姿最精确。