Coherent Parametric Contours for Interactive Video Object Segmentation 阅读总结
Coherent Parametric Contours for Interactive Video Object Segmentation 阅读总结
本文在视频的物体轮廓生成上有很SOTA的成果,在与物体的贴合度以及用户校正时的方便性上都有很高的建树,可以通过第一帧的轮廓很好的推演出下面的帧的物体的轮廓
另外,读完这篇文章,更深理解了temporal coherent/consistency是让当前帧和前一帧不会出现走样
Introduction
之前的视频物体分割是用人工描摹的方法,需要很多人力,更自动的方法是基于涂鸦,类似PS抠图,但是边界、帧间连续性等仍有问题。本文提出的CPC在视频上基于贝塞尔曲线动态构建稳定的物体轮廓,面对之前轮廓曲线非参数化而难以优化,向下一帧传播的方式不够准确等问题,做到了:
1.引出了相干参数等值线的概念,即使用一组参数化曲线直接对对象边界进行建模
2.提供了方便交互的用户控件
3.提供了一套全新的数据集涵盖了专业转描中的常见案例
Related Work
1.此方法模仿转描技术,为物体提供高质量的边界,但是用户只需要注释第一帧(转描要注释每一帧),该方法会自动将形状投射到后续帧
2.此方法使用参数化曲线作为系统的输入,解决了使用基于涂鸦方法时产生的非参数化对象边界难以微调的问题
3.此方法假设运动物体是一个个局部的刚性运动,而不是整体的刚性运动,克服了基于关键点的系统中处理非刚性物体的困难
本文给出了一组由专业转描艺术家标注的参数化视频数据集,可以更好评测交互式视频对象分割的空间精度和时序一致性,并且也提出了对非刚体只基于轮廓形状而不是图像区域的评价标准
CPC
CPC在单张图像上:
参考了主动轮廓模型的经典能量方程,通过构造能量泛函,经过算法迭代,轮廓曲线由初始位置逐渐向使能量函数最小的图像边缘逼*,最终分割出目标。
简单理解就是E(C) = 曲线连续+曲线*滑-边函数。
本文基于贝塞尔曲线,通过各曲线是首尾连接的以及贝塞尔曲线本身是连续的,第一项可以去掉,第二项是控制曲线是否有直角转弯那种*滑程度的,第三项吸引曲线拟合到图像梯度▽I,是核心的与图像信息有关的项。
公式里面曲线C(q)使用一组连接的Bezier曲线表示:
其中,B(p^i)代表Bezier曲线的两个端点,因为Bezier曲线是连通的,所以有bi(1) = bi+1(0).目前先主要考虑各段贝塞尔曲线的端点,中间点之后推测出来。
因此把(1)式中的最后一项改写为:
Bezier曲线总是连续和*滑的。所以要产生合理的CPC,只需要求两条相连的Bezier曲线连接处附*的*滑度即可。CPC在单个帧上的能量可以写为:
CPC在视频上:
给定视频序列V = (I1, ..., In), 为了实现时空精度和一致性,对视频序列上CPC的总能量进行了优化:
其中,E(Bt, Bt+1) 是时间一致性成本,算相邻两帧的差异:
计算两个帧中边界m和n之间的距离,可以公式化为m上与n对应的像素的百分比:
如果第一帧一点和第二帧该点的距离超过了阈值,就算上1,最后除以总的点数,算百分比
曲线生成
先生成终端点,然后通过求解最小二乘拟合问题来确定中间控制点
生成候选终端点集有两个标准:(1)它们在帧上的位移应该与估计的局部物体运动一致 (2)它们应该捕捉到强烈的图像边缘。因此帧t上的候选点应使以下能量值最小化:
为了求解等式(8),需要移动候选终端点一个或两个像素,因而会产生低多样性的大排列集,从而造成等式(5)计算复杂度较高。为了解决等式(5)计算复杂度较高这个问题,本文利用随机抽样的方法来获得种类繁多的小候选集。
像素x是帧t中的终端点的可能性可以表示为:
其中,N( , )是以局部刚性运动投影的端点为中心的二维正态分布。
接下来进行最小二乘法Bezier拟合,给曲线的两端点p0和p3,推测中间点p1和p2,我们先画一个包围框,b是贝塞尔曲线,L集合包含了所有可能的曲线,然后借助寻找y的位置,通过▽I推测p1和p2,并用包围框约束它们(虽然没懂,但其实效果类似PS抠图里面的磁力吸附):
设C是Bezier曲线中可能的像素位置集合。在实践中,为了减少搜索空间,将C设置为包含p0和p3的边界框内的像素加上一个常量边距。
局部刚性运动估计:
在这篇文章中强调了对象的局部刚性,利用局部亲和力来估计终端点的运动。
对于运动了的点,以它为中心r为半径的所有点来算单应性矩阵,点不够的话就直接由前一帧简单计算传播过来(见论文里的方法)
给定参数化Bezier曲线B和局部刚性运动矢量f,对于终端控制点,直接应用f;对于中间控制点,我们使用从两个相邻终端控制点插值的双线性运动矢量。
Experiments
之前的数据集在 复杂的变化、模糊的边界、遮挡、运动模糊、刚体物体上不够狠,本文提出的数据集:
1.将复杂对象划分为具有简单形状的重叠部分,每个部分仍然可以变形,并且设置粗略的边界。
2.对于具有毛茸茸边界的物体,先为该物体生成一个一致的轮廓,然后在局部对毛茸茸的部分应用柔和遮罩。
3.为了解决运动模糊,本文采用标准做法即估计时间*滑边界并牺牲空间精度。
Evaluate
与已有技术进行对比,本片文章方法的突出优点如下:
(1)在刚性轨道上实现了可比的性能,以更好的方式找到了正确的遮挡边界
(2)更好地处理了非刚性运动
(3)更好的时空优化
(4)解决了运动模糊等问题,生成的对象边界仍保持一致。
用户交互上的优点:
(1)空间调整:用户可以直接移动Bezier曲线的控制点来调整分割边界
(2)时间传播:产生的结果更可靠,一旦对一个帧进行了优化,修改后的形状可以保留更长时间