BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames论文笔记

在视频分割中,尤其是半监督学习之中,我们往往要有一个初始帧供沃恩注释,一般而言,这个初始帧都是选择的第一帧,但是密歇根大学的研究人员发现,使用最佳的帧并不是第一帧,使用更好的帧可以显著提升性能,所以他们提出了bubblenets这一个方法,该代码现在在github上已经开源。

https://github.com/griffbr/BubbleNets 实验视频位于https://youtu.be/0kNmm8SBnnU
 
在之前的很多研究中,广泛使用davis数据集,youtube的vos视频,而且野有了许许多多的标准,这些论文大多关注的是多目标的分割,由此来满足用户的需要,而且这些研究大多使用的是神经网络(cnn或者fcn)的办法
.
本文使用的视频分割方法是基于osvos的,(osvos是入门视频分割的一篇经典论文),因为osvos不需要顺序考虑帧的效果,所以选择了它
 
论文特别关注了al方法和error reduction这两个热点,al方法在error reduction中有了很多应用,但是对于cost的衡量方法不一,有基于决策树的模型,也有研究crowd source类视频的模型,本篇论文想要对所有的半监督学习方法进行cost衡量,而且要找出最好的那一帧。密歇根大学提出的方法与冒泡排序有着相似性,相邻迭代地比较连续两帧。
 
但是这与冒泡排序有很大的不同,冒泡排序仍然有这种“顺序”的考量,而在本方法之中,我们采用了利用一些参考帧的方法,这些参考帧是随机选择的,如此比较两者的相对关系,能够成功使用“随机性”,从而选出我们要的初始帧,最后判断是否提高效能的方法是使用了两个指标,一个是分割重合度,还有边缘精确度,两者相加衡量最后的效能。
 
然后作者进行了对比实验,分别对原先的bubblnets,不适用single-frame方法,不使用reference参考帧,使用其他的衡量函数,此时发现,只有我们现在的方法时间效能不差,但是精确度最高,但是通过对比也发现,如果初始帧选在中间那一帧,鲁棒性会更好,这是因为这一桢在计算距离时离其他点的期望距离应该时最小的。
Selecting the middle frame for annotation is the best per
forming simple selection strategy on all datasets and is easy
to implement in practice.
但是bnf 也就是第五种方法的鲁棒性最好,但是时间复杂度最高
bn0对于简单的分割在效率上时最好的,而且效果也是最好的,但是一旦涉及到很少帧数的标记,bn0就会出现一些问题,实验也发现,应该是帧数太少的缘故导致了这出现了一些问题,所以需要更多的标记帧。
 
最后,这篇文章总结了对于初始帧的选择,我们应该做更多考虑,不应该执着于选第一帧,用bn的方法确实能够大大提升性能
 
 
posted @ 2019-09-17 00:17  coolwx  阅读(537)  评论(0编辑  收藏  举报