翻译文章进展
本来打算每周通过翻译文章的方式精读一两篇文章的,可现在不禁打起了退堂鼓。
第一个原因是,英语论文翻起来实在太过于吃力,先不说很多科技英语的特定表达方法我不太清楚,就是一般的行文组字,如何翻译成通顺连贯的汉语也要花费很长时间。
第二个则是,并不是每一篇论文都值得花大力气去翻译,更直接的就是找不到一篇合适的文章来翻译,大牛写的文章或者太过先进根本看不懂,或者是综述性的文章,跟目前的项目没关系。更多的会议文章则显得撰写水平一般且“干货”太少,画个2个小时仔细读一下即可,浪费好几个晚上的时间去翻译实在不值。
翻译了一篇CVPR的关于立体匹配的文章的前面一小部分,贴出来献丑了。也同时在这里发帖为证,放弃翻译这篇文章并不代表英语学习计划的夭折和放弃,只是决定不会继续在造句上浪费太多时间。以后还是经常的看论文,不过重点不是翻译,而是把收获记录下来。
基于积分图的快速可变窗口立体匹配算法
摘要:
我们研究出了一种快速且准确的可变窗口方法。两个主要的思路分别是:1,匹配时选择合适的窗口大小和形状;2,研究出一种针对不同窗口的代价函数。由于采用了积分图技术,我们方法的速度与窗口大小无关。这种算法在Middle-bury stereo 数据库中匹配中排名前四,而且是所有算法中效率最高的。
导引
空域比较是一种在基于强度的立体相关领域中古老且应用广泛的算法。在这种算法中,我们假设像素点被。考虑左侧图像的一个以p为中心的窗口,以及右侧图像相同位置左移d后的窗口,比较两者的差别,可以估计出左侧图像中像素点p在视差为d条件下的代价。窗口代价函数的计算一般是SAD或者NCC。当所有的窗口代价都被计算出来之后,代价最小的d就作为像素点p的视差。这种方法的最大问题是,尽管通过窗口比较来计算视差的方式可行,窗口的大小和形状是未知的。大多数方法使用的是一个固定大小的矩形窗口,这种方法相当有效率。
从论文11开始,研究者们发现保持窗口大小不变的会导致系统性的误差。要得到一个值得信赖的估计,窗口必须达到包含了足够的强度变化情况。同时窗口内的像素点应该有相似的视差,这要求窗口也不能过大。为了避免越界,视差边界处的窗口应该有合适的形状。窗口如果从小变大的话,可以得到精确的视差边界同时在平坦区域会有较大噪声的结果;窗口如果从大变小,结果在平坦区域会更加可靠但视差边界却变得模糊不清,一般得不到一个最有的分界线满足视差边界足够精确的同时,在平坦区域的结果也足够可靠。
在可变大小、形状窗口领域也已经有人做了一些工作。这样可变窗口的方法一般面临着两大问题。一是定义一种合适的窗口代价函数,来统一比较不同大小、形状的窗口的代价;二是高效的在窗口空间中搜索像素点所对应的最佳窗口类型。论文11介绍了最早的可变窗口方法,在计算代价函数时使用了归一化的相关算法,不停的改变窗口大小知道代价函数有明显改变时为止。然而这种仅仅依赖于强度变化的方法在遇到视差边界的时候会明显失效。
论文9中介绍的自适应窗口方法在计算窗口代价时使用了对视差估计的不确定性。这种方法需要对窗口内的视差分布进行建模,在初始化估计视差预测模型之后,使用一种低效率的贪婪局部搜索算法寻找最合适的窗口类型。尽管这种方法很精致,与固定窗口算法相比却没有明显的提高。问题可能在于对初始视差预测的过于敏感。
还有一种广泛使用算法是多窗口方法。对于一个像素点,评价少数的几个不同的窗口,记录下代价最优的窗口。一般情况下这种窗口大小固定,形状可变,一般情况下使用SSD这种简单的窗口代价函数。为了保持算法的高效性,在可选窗口数目的确定上一般不超过10个。由于窗口形状可变的特性,在不连续边缘,这种算法要优于使用窗口固定的方法。
论文15提出了一种密集窗口算法。尽管这种方法重建效果很好,在实时应用系统中却显得不够高效。
我们提出了一种新的可变窗口算法。主要的想法是通过寻找有效的窗口大小和形状范围以及使用一种在比较不同大小的窗口上工作良好的窗口大小。为了快速的在窗口空间中搜索,我们使用了一种在计算机图形学领域中广泛应用却刚刚被引入视觉方面的积分图方法。
翻译自Veksler O. Fast variable window for stereo correspondence using integral images[C]//Computer Vision and Pattern Recognition, 2003. Proceedings. 2003 IEEE Computer Society Conference on. IEEE, 2003, 1: I-556-I-561 vol. 1.