基于MAP-MRF的视差估计
作者:浩南
来源:微信公众号|3D视觉工坊(系投稿)
3D视觉精品文章汇总:https://github.com/qxiaofan/awesome-3D-Vision-Papers/
写在最前面的话:
此篇文章作为本人对马尔科夫随机场等概率模型在立体视觉的应用的首篇记录,包含了本人对马尔科夫场理论的浅显理解和最大后验概率估计方法的理解。囿于本人学术水平,此篇文章参考了大量的数学教材、网络的相关博客以及国内外学术论文,在此特别鸣谢以下创作:
1.图像的MAP-MRF模型 https://blog.csdn.net/xfijun/article/details/103624819
2.Belief Propagation解决计算机视觉问题
https://blog.csdn.net/lansatiankongxxc/article/details/45590545?utm_source=blogxgwz0
以上创作极大地加深了本人对马尔可夫场的理解,在此基础上,本人结合视差估计这一立体视觉基本问题进行整理。再次感谢以上创作对本人的帮助,谢谢!
作为计算机视觉的核心问题的三维重建技术已经广泛应用于3D打印、离线地图重建和文物修复等行业应用之中。其中,基于多视图立体(Multi-View Stereo, 以下简称为“MVS”)的三维重建仅以RGB图片作为输入,经过特征提取与匹配,从运动恢复结构(Structure from Motion, 以下简称为“SfM”),深度估计,深度图融合等多个步骤,输出表达场景的稠密点云,是基于视觉的三维重建技术的重要方法和研究分支。日益增长的数据量,同时内部数据还受到诸如光照变化、遮挡等不可控环境因素的影响都对深度图估计的效率、精度都提出了挑战。
参考影像的深度估计可以转化为立体像对的视差估计,传统方法利用稠密匹配的算法进行快速特征匹配,例如半全局匹配算法,而往往在收到遮挡的影响而效果不佳。而深度学习方法在立体视觉中的成功应用,使得高效率、高精度的基于神经网络的端到端三维重建成为可能。
在MVS技术中,估计单张影像的深度图是主要步骤。而多视图立体的深度估计又可以转化成立体像对的视差估计。对于图像视差估计问题,一般可利用马尔科夫场对图像视差赋值进行建模[1],大多数传统方法也在其基础上利用最大化后验概率进行优化
因此,本文将就立体像对视差估计问题,首先介绍立体像对中视差估计的原理,然后沿用以往马尔科夫场的模型,并以最大后验概率估计作为参数估计方法,建立MAP-MRF模型。最后使用和积置信度传播算法,改写MAP-MRF框架下的视差能量函数,并优化求解立体像对中以左视图为基准的视差图。
1.立体像对视差估计原理
图1 立体视觉模型[5]
2.基于MAP-MRF的深度估计模型
2.1最大后验概率估计
最大后验概率估计(Maximum A Posteriori, 以下简称“MAP”)是贝叶斯学派模型参数估计的常用方法。其基本思路为,在给定数据样本的情况下,最大化模型的后验概率。
假设利用Y表示观测值,X表示待求量,则在观测数据条件下的待求量的条件概率为P(X | Y),由贝叶斯公式可得(式2),后验概率正比于似然函数P(Y|X)和未知变量的先验概率P(X)的乘积。
当待求量的先验分布未知时时,可以认为P(X)是一个均匀分布,利用最大似然法(MLE)进行优化,然而对于立体像对深度估计问题,待求变量往往会受到光照条件、遮挡的影响,而一般也能够得到关于待求变量的先验信息,从而在数据量不足的情况下,选择MAP估计可以得到一个更为优化的结果(式3)。
2.2 马尔科夫随机原理
2.2.1 领域系统
图2 MRF领域系统[9]
2.2.2 马尔科夫随机场
的状态
2.3吉布斯分布
2.4MAP-MRF在深度估计上的建模
本节主要介绍MAP-MRF框架在视差估计上的模型构建过程。
因为已知观测量,并在MAP框架下,要求未知变量X的后验概率最大(式3),所以仅需要知道观测变量的后验概率P(Y | X)和未知变量的先验概率P(X),即可表示未知变量的后验概率(式2)。而在马尔科夫场中,比较容易构造出未知变量和观测变量的联合概率(式6)。
由2.3中所说的Hammersley-Cliffod定理,未知变量的先验分布满足Gibbs分布,因此,由式6)和式4),未知变量的先验分布可以表示为场内子团的势能。这里需要注意,在数据集给定的情况下,观测变量是确定的常值,观测变量的后验概率P(Y | X)可以认为是观测变量退化的似然表示。因此,在未知变量给定标号的时候,P(Y | X)实际上是一个可求的定值,。所以用能量函数表示时,往往将观测值的后验概率和未知量的先验概率的一元能量合并。
对于求解建立在图像上的无向有环图模型,还有两个难点,第一个是如何确立能量函数的具体形式,第二个求解式10)是一个NP问题,该如何求解。对于第一个问题,考虑第一节中的视差估计原理,利用光学一致性准则给出能量函数,第二个问题,利用置信度传播算法(Belief Propagation Algorithm, 以下简称“BP算法”)进行优化求解。
2.4.1MAP-MRF框架下深度估计步骤
1)通过最大后验概率法确定MRF模型,由式6),两边取对数得:
2)确定先验概率P(X)
3)确定似然函数模型P(Y|X),一般可与先验概率分布一致。
4)写出最大后验概率下的能量函数,优化求解
3.BP算法求解
3.1BP算法原理
对于有环无向的马尔科夫场,求解观测量和未知变量的联合概率,是一个NP问题,无法在线性时间内解决,因此,使用BP算法进行优化。首先,分解联合概率(式8),将每一个
需要注意的是,考虑无向有环图的特性,一般在信息迭代的时候,奇数次则按照垂直方向迭代,偶数次按照水平方向迭代以提高效率。
3.2视差代价能量函数
4.实验结果与分析
我们先利用经典的驻波大学(Tsukuba Univeristy)的立体像对数据集来验证本文的框架和算法,这个数据集是经典立体视觉匹配的数据集,包括高分辨率,中分辨率和低分辨率的立体像对,同时该数据集还提供了视差真值、遮挡和无纹理的指示图。我们首先给定一个视差范围,例如0至16个像素,利用MAP-MRF框架的视差估计结果,并和半全局匹配算法得到的初始视差图对比结果如下。
图4 基于MAP-MRF视差计算结果对比:上面一行为左右视图,左下为“赢者通吃”策略视差图,右下为由MRF计算的视差图
从图4,通过MRF建模后,利用BP算法得到的视差图的平滑度要优于无邻域视差约束的初始深度图,同时,对比发现,BP算法能将局部信息进行全局传递,从而在视差图边缘部分不会出现没有参考,只能用0视差填充的黑色边框。
图5 立体像对视差计算结果
对比其他数据集视差结果(图5)可以看到,在BP算法优化后,经典的立体像对可以得到较为准确的视差结果。当然本文中实现的BP算法没有引入太多的约束,从而会受到光照变化、遮挡等影响。如图6,当左右视图的相机外参变化较大的时候,即两个相机的光轴夹角较小的时候,由于相机转角过大,导致相同特征被遮挡,或者位置偏移在置信度传播的时候,在参考影像上,认为找不到合适匹配点,所以将视差设定为0,在图像中就是黑色显示。
图6 遮挡影响下的视差残缺
5.总结
本文主要利用MAP-MRF框架,以左像为参考,估计立体像对的视差图。首先,通过MAP,将视差估计问题转化为最大化视差后验概率问题,之后本文结合MRF对图像进行建模,并在该框架下得到视差估计的能量函数和优化条件。最后利用BP算法进行求解。
实验表明,本文的算法比原有的直接计算像对视差的结果更为完整和平滑。同时,就光照变化、遮挡问题对置信度传播方法的挑战,本文将结合深度学习方法再进行进一步的研究。
参考文献
[1] 毕天腾, 刘越, 翁冬冬, and 王涌天. 基于监督学习的单幅图像深度估计综述. 计算机辅助设计与图形学学报, 30(8):1383–1393, 8 2018.
[2] Michael Isard and John MacCormick. Dense motion and disparity estimationvia loopy belief propagation. In Computer Vision - ACCV 2006:, pages 32–41, Hyderabad, India, 1 2006.
[3] Christoph Strecha, Rik Fransens, and Luc Van Gool. Combined depthand outlier estimation in multi-view stereo. In ICT’07: XXVI InternationalConference on ermoelectrics June 3-5, 2007 Shineville LuxuryResort Jeju, Korea, pages 2394–2401, Jeju, Korea, 1 2007. IEEE.
[4] Chen, Qifeng, Koltun, and Vladlen. Fast mrf optimization with applicationto depth reconstruction. In 2014 IEEE Conference on ComputerVision and Pattern Recognition: 2014 27th IEEE Conference on ComputerVision and Pattern Recognition (CVPR 2014), 23-28 June 2014,Columbus, Ohio, pages 3914–3921, Columbus, OH(US), 1 2014. Instituteof Electrical and Electronics Engineers.
[5] 姚力. 自然三维电视系统中立体匹配及视点合成技术研究. 博士论文, 浙江大学, 11 2012.
[6] 陈侃. 基于马尔科夫随机场图像恢复算法研究. 硕士论文, 南京师范大学, 11 2008.
[7] Ozkalayci, Burak, Alatan, and /A/. Aydin. Mrf-based planar cosegmentationfor depth compression. In 2014 IEEE International Conferenceon Image Processing: 2014 IEEE International Conference onImage Processing (ICIP 2014), 27-30 October 2014, Paris, France,pages 125–129, Paris, 1 2014. Institute of Electrical and Electronics Engineers.
[8] 吴秋峰, 尹海东, and 孟翔燕. 基于和积和最大积的信念传播算法的收敛性分析. 数学的实践与认识, 41(9):212–217, 8 2011.
[9] 童汉阳. 基于过分割的自适应精匹配算法研究. 硕士论文, 浙江工业大学, 9 2012.
备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区,本文的配套代码后续作者也将会分享在星球内。
写在最前面的话:
此篇文章作为本人对马尔科夫随机场等概率模型在立体视觉的应用的首篇记录,包含了本人对马尔科夫场理论的浅显理解和最大后验概率估计方法的理解。囿于本人学术水平,此篇文章参考了大量的数学教材、网络的相关博客以及国内外学术论文,在此特别鸣谢以下创作:
1.图像的MAP-MRF模型 https://blog.csdn.net/xfijun/article/details/103624819
2.Belief Propagation解决计算机视觉问题
https://blog.csdn.net/lansatiankongxxc/article/details/45590545?utm_source=blogxgwz0
以上创作极大地加深了本人对马尔可夫场的理解,在此基础上,本人结合视差估计这一立体视觉基本问题进行整理。再次感谢以上创作对本人的帮助,谢谢!
作为计算机视觉的核心问题的三维重建技术已经广泛应用于3D打印、离线地图重建和文物修复等行业应用之中。其中,基于多视图立体(Multi-View Stereo, 以下简称为“MVS”)的三维重建仅以RGB图片作为输入,经过特征提取与匹配,从运动恢复结构(Structure from Motion, 以下简称为“SfM”),深度估计,深度图融合等多个步骤,输出表达场景的稠密点云,是基于视觉的三维重建技术的重要方法和研究分支。日益增长的数据量,同时内部数据还受到诸如光照变化、遮挡等不可控环境因素的影响都对深度图估计的效率、精度都提出了挑战。
参考影像的深度估计可以转化为立体像对的视差估计,传统方法利用稠密匹配的算法进行快速特征匹配,例如半全局匹配算法,而往往在收到遮挡的影响而效果不佳。而深度学习方法在立体视觉中的成功应用,使得高效率、高精度的基于神经网络的端到端三维重建成为可能。
在MVS技术中,估计单张影像的深度图是主要步骤。而多视图立体的深度估计又可以转化成立体像对的视差估计。对于图像视差估计问题,一般可利用马尔科夫场对图像视差赋值进行建模[1],大多数传统方法也在其基础上利用最大化后验概率进行优化
因此,本文将就立体像对视差估计问题,首先介绍立体像对中视差估计的原理,然后沿用以往马尔科夫场的模型,并以最大后验概率估计作为参数估计方法,建立MAP-MRF模型。最后使用和积置信度传播算法,改写MAP-MRF框架下的视差能量函数,并优化求解立体像对中以左视图为基准的视差图。
1.立体像对视差估计原理
图1 立体视觉模型[5]
2.基于MAP-MRF的深度估计模型
2.1最大后验概率估计
最大后验概率估计(Maximum A Posteriori, 以下简称“MAP”)是贝叶斯学派模型参数估计的常用方法。其基本思路为,在给定数据样本的情况下,最大化模型的后验概率。
假设利用Y表示观测值,X表示待求量,则在观测数据条件下的待求量的条件概率为P(X | Y),由贝叶斯公式可得(式2),后验概率正比于似然函数P(Y|X)和未知变量的先验概率P(X)的乘积。
当待求量的先验分布未知时时,可以认为P(X)是一个均匀分布,利用最大似然法(MLE)进行优化,然而对于立体像对深度估计问题,待求变量往往会受到光照条件、遮挡的影响,而一般也能够得到关于待求变量的先验信息,从而在数据量不足的情况下,选择MAP估计可以得到一个更为优化的结果(式3)。
2.2 马尔科夫随机原理
2.2.1 领域系统
图2 MRF领域系统[9]
2.2.2 马尔科夫随机场
的状态
2.3吉布斯分布
2.4MAP-MRF在深度估计上的建模
本节主要介绍MAP-MRF框架在视差估计上的模型构建过程。
因为已知观测量,并在MAP框架下,要求未知变量X的后验概率最大(式3),所以仅需要知道观测变量的后验概率P(Y | X)和未知变量的先验概率P(X),即可表示未知变量的后验概率(式2)。而在马尔科夫场中,比较容易构造出未知变量和观测变量的联合概率(式6)。
由2.3中所说的Hammersley-Cliffod定理,未知变量的先验分布满足Gibbs分布,因此,由式6)和式4),未知变量的先验分布可以表示为场内子团的势能。这里需要注意,在数据集给定的情况下,观测变量是确定的常值,观测变量的后验概率P(Y | X)可以认为是观测变量退化的似然表示。因此,在未知变量给定标号的时候,P(Y | X)实际上是一个可求的定值,。所以用能量函数表示时,往往将观测值的后验概率和未知量的先验概率的一元能量合并。
对于求解建立在图像上的无向有环图模型,还有两个难点,第一个是如何确立能量函数的具体形式,第二个求解式10)是一个NP问题,该如何求解。对于第一个问题,考虑第一节中的视差估计原理,利用光学一致性准则给出能量函数,第二个问题,利用置信度传播算法(Belief Propagation Algorithm, 以下简称“BP算法”)进行优化求解。
2.4.1MAP-MRF框架下深度估计步骤
1)通过最大后验概率法确定MRF模型,由式6),两边取对数得:
2)确定先验概率P(X)
3)确定似然函数模型P(Y|X),一般可与先验概率分布一致。
4)写出最大后验概率下的能量函数,优化求解
3.BP算法求解
3.1BP算法原理
对于有环无向的马尔科夫场,求解观测量和未知变量的联合概率,是一个NP问题,无法在线性时间内解决,因此,使用BP算法进行优化。首先,分解联合概率(式8),将每一个
需要注意的是,考虑无向有环图的特性,一般在信息迭代的时候,奇数次则按照垂直方向迭代,偶数次按照水平方向迭代以提高效率。
3.2视差代价能量函数
4.实验结果与分析
我们先利用经典的驻波大学(Tsukuba Univeristy)的立体像对数据集来验证本文的框架和算法,这个数据集是经典立体视觉匹配的数据集,包括高分辨率,中分辨率和低分辨率的立体像对,同时该数据集还提供了视差真值、遮挡和无纹理的指示图。我们首先给定一个视差范围,例如0至16个像素,利用MAP-MRF框架的视差估计结果,并和半全局匹配算法得到的初始视差图对比结果如下。
图4 基于MAP-MRF视差计算结果对比:上面一行为左右视图,左下为“赢者通吃”策略视差图,右下为由MRF计算的视差图
从图4,通过MRF建模后,利用BP算法得到的视差图的平滑度要优于无邻域视差约束的初始深度图,同时,对比发现,BP算法能将局部信息进行全局传递,从而在视差图边缘部分不会出现没有参考,只能用0视差填充的黑色边框。
图5 立体像对视差计算结果
对比其他数据集视差结果(图5)可以看到,在BP算法优化后,经典的立体像对可以得到较为准确的视差结果。当然本文中实现的BP算法没有引入太多的约束,从而会受到光照变化、遮挡等影响。如图6,当左右视图的相机外参变化较大的时候,即两个相机的光轴夹角较小的时候,由于相机转角过大,导致相同特征被遮挡,或者位置偏移在置信度传播的时候,在参考影像上,认为找不到合适匹配点,所以将视差设定为0,在图像中就是黑色显示。
图6 遮挡影响下的视差残缺
5.总结
本文主要利用MAP-MRF框架,以左像为参考,估计立体像对的视差图。首先,通过MAP,将视差估计问题转化为最大化视差后验概率问题,之后本文结合MRF对图像进行建模,并在该框架下得到视差估计的能量函数和优化条件。最后利用BP算法进行求解。
实验表明,本文的算法比原有的直接计算像对视差的结果更为完整和平滑。同时,就光照变化、遮挡问题对置信度传播方法的挑战,本文将结合深度学习方法再进行进一步的研究。
参考文献
[1] 毕天腾, 刘越, 翁冬冬, and 王涌天. 基于监督学习的单幅图像深度估计综述. 计算机辅助设计与图形学学报, 30(8):1383–1393, 8 2018.
[2] Michael Isard and John MacCormick. Dense motion and disparity estimationvia loopy belief propagation. In Computer Vision - ACCV 2006:, pages 32–41, Hyderabad, India, 1 2006.
[3] Christoph Strecha, Rik Fransens, and Luc Van Gool. Combined depthand outlier estimation in multi-view stereo. In ICT’07: XXVI InternationalConference on ermoelectrics June 3-5, 2007 Shineville LuxuryResort Jeju, Korea, pages 2394–2401, Jeju, Korea, 1 2007. IEEE.
[4] Chen, Qifeng, Koltun, and Vladlen. Fast mrf optimization with applicationto depth reconstruction. In 2014 IEEE Conference on ComputerVision and Pattern Recognition: 2014 27th IEEE Conference on ComputerVision and Pattern Recognition (CVPR 2014), 23-28 June 2014,Columbus, Ohio, pages 3914–3921, Columbus, OH(US), 1 2014. Instituteof Electrical and Electronics Engineers.
[5] 姚力. 自然三维电视系统中立体匹配及视点合成技术研究. 博士论文, 浙江大学, 11 2012.
[6] 陈侃. 基于马尔科夫随机场图像恢复算法研究. 硕士论文, 南京师范大学, 11 2008.
[7] Ozkalayci, Burak, Alatan, and /A/. Aydin. Mrf-based planar cosegmentationfor depth compression. In 2014 IEEE International Conferenceon Image Processing: 2014 IEEE International Conference onImage Processing (ICIP 2014), 27-30 October 2014, Paris, France,pages 125–129, Paris, 1 2014. Institute of Electrical and Electronics Engineers.
[8] 吴秋峰, 尹海东, and 孟翔燕. 基于和积和最大积的信念传播算法的收敛性分析. 数学的实践与认识, 41(9):212–217, 8 2011.
[9] 童汉阳. 基于过分割的自适应精匹配算法研究. 硕士论文, 浙江工业大学, 9 2012.
备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区,本文的配套代码后续作者也将会分享在星球内。