2018年5月9日论文阅读
国内精读!title(28):Global Contrast based Salient Region Detection(基于全局对比的显著区域检测)---CVPR2011
(显著性检测因为是一个非常具体的研究方向,所以并不像跟踪,人脸识别这种有一些经典的方法步骤。显著性就是对目标的提取,只不过是一种无监督的学习。我们也可以认为它是一种图像分割方法,因此在显著性检测算法中基本都要涉及到图像的最低层,这些底层处理处理也是显著性的难点所在。Global contrast based salient region detection这篇论文可以作为首先学习的文章,是因为该算法仅仅是利用了像素间的颜色对比来提取显著目标。该文方法虽然简单但是很清晰地阐明了对图像底层信息的利用。)
附上该论文的中文版链接:https://mmcheng.net/mftp/SalObj/SaliencyCVPR2011Chinese.pdf
论文的提出主要根据以下几点考虑:
文章主要由两部分组成,也就是程明明提出的两种算法:1、基于颜色直方图的对比算法(HC);2、基于区域的对比算法(RC)。
1 HC:基于直方图对比度的方法(HC),每一个像素的显著性值由它与图像中所有其他像素的颜色差异来确定,得到全分辨率显著性图像;
2 RC:基于局部对比度的方法,先将图像分割成小区域,采用的分割方法是基于图的分割,基本分割思想是将每个像素点作为无向图的顶点,两个像素点之间的不相似度作为边的权重,要求连接相同区域内的两个顶点的边的最大权重要小于连接不同区域的顶点的边的最小权重,在迭代过程中进行顶点归纳与区域合并,具体参见论文Efficient graph-based image segmentation;每个区域的显著性值由它与其他所有区域的空间距离和区域像素数加权的颜色差异来确定;空间距离为两个区域重心的欧氏距离,较远区域分配较小权值;
3 细节加速
基于直方图的加速:将每个颜色通道由256个颜色值量化到12个颜色值后,对输入图像计算颜色直方图,保留高频颜色,覆盖95%图像像素,剩下颜色舍弃,用直方图中距离最近的颜色代替;
颜色空间平滑:减小量化误差,每个颜色的显著性值被替换为相似颜色显著性的加权平均;在RGB空间进行量化,用Lab空间度量距离;
4 评价
基于HC的理论方法很简单,根据全局对比度计算显著度,计算速度快,对于背景较简单的图像效果也不错;RC改变了处理单元,由单个像素到图像块,速度较慢,效果并没有比HC提高很多,个人认为基于图的分割结果不够好,导致saliency map不均匀。
国内精读!(29):Learning to Detect A Salient Object(学习检测一个显著性目标)---CVPR2007
基本思想:
先对显著目标进行特征提取,得到多尺度对比度,中央-周围对比度,颜色空间分布3种feature maps,再用条件随机场模型进行组合,得到最终的显著性检测结果。
方法流程:
① Multi-scale contrast feature:高斯金字塔多层对比度的线性组合。
② Center-surround histogram:计算像素点x'为中心的显著矩形区域与其周 围矩形区域的RGB颜色直方图之间的x2距离;由于目标尺寸不同,选择不同纵横比的矩形区域进行测试,x2距离最大对应得到最独特矩形区域;像素点x的中央-周围直方图特征定义为其所属所有矩形区域的空间高斯加权x2距离之和。
③ Color spatial-distribution:图像中的所有颜色用高斯混合模型来表示,每一个像素被分配给具有某概率的颜色成分,计算每一个颜色成分的水平方差和垂直方差,得到该成分的空间方差;颜色空间分布特征定义为中央加权的 空间方差之和。颜色方差越小,该颜色越有可能属于显著目标。
④ 条件随机场结合:能量函数为K个显著特征和配对特征的线性组合,通 过条件随机场学习计算权重,得到最优化的线性组合。其中显著特征为前面 得到的3种feature map,用来描述一个像素点是否属于显著目标;配对特征 为两个相邻像素点的空间关系,是对相邻像素标记为不同值的惩罚项。
论文评价:
采用条件随机场模型进行特征组合,融合颜色独立性,颜色空间分布和多尺度分布,考虑了局部信息,全局信息以及尺度信息。效果也不错。
国外精读!title(30):Salient Object Detection: A benchmark(显著性物体检测:一种基准)---ECCV
南开大学的显著性检测benchmark链接:http://mmcheng.net/zh/salobjbenchmark/
主要贡献:
一篇关于显著性模型的综合论文,总结了自2011年以及之前发表的,能容易得到的(代码或者Saliency Map),具有很好的准确率的,或者具有很高引用率的模型。
全文共用5个数据库:MSRA,ASD,SED1,SED2,SOD(这个五个数据 库都是包含物体的数据库,该文的重点也是考察包含物体的数据库上比较各 个模型)。
概述:
本benchmark一共整理了28 个salient object detection显著性检测算法, 10个注视点预测,1个 objectness(目标候选区生成)和一个baseline—平均标注图(Average Annotation Map)。
显著性检测算法主要有基于人眼注视点的预测 和 计算机视觉驱动的确定显著目标或区域模型两种方法。作者认为,一个显著性检测模型应该:检测出吸引人注意力的目标,分割出完整的目标。
显著性检测已经应用在目标检测与识别,图像和视频压缩,视频摘要,照片校对/媒体重定向/剪切/缩略图,图像质量评价,图像分割,基于内容的图像检索和图像采集浏览,图像编辑和操纵,视觉跟踪,对象发现,人机交互等领域。
本文主要研究的问题:以前的模型是真的有进步呢还是仅仅的对数据集(过)拟合了?优秀的老模型在新的数据集上是否有好效果? 使用了MSRA10K, ECSSD, THUR15K,JuddDB ,DUT-OMRON,and,SED2 6个数据集,挑选数据库的时候,主要是基于以下几个原因的考虑,被广泛的应用,含有大量图像,具有不同的偏好{例如,显著性目标的个数,图像杂波(复杂度,主要看超像素的个数),中心偏差},和可能作为未来研究的benchmark。
评价一个算法的方法有:
1 召回率和精度
2 F测度 (越大越好)
3 ROC曲线
4 AUC分数
Area under ROC,也就是ROC曲线下的面积,好的模型AUC趋向1,随机猜测的auc是0.5 。
5 Mean absolute error (MAE) score 平均绝对误差。越小越好
为了更综合地比较,不仅仅考虑overlap和二值图,而应该考虑预测的前景、背景的saliency值。
Human Inter-observer(IO) model: 在N个观测者中,依次抽出一个人的标注结果作为测试,将其他N-1个人的标注结果的集合作为基准,计算这个人与其他人的标注的不一致性。
各个算法的优劣性:
对于PR曲线和ROC曲线上,DRFI算法在6个benchmark上都大大的优胜于其他的模型,同时,RBD, DSR 和MC的效果相近,且轻微的优胜于其他模型。对于F测度,五个最好的模型是:DRFI,MC,RBD,DSR,GMR;DRFI在5个数据集上优胜于其他模型。MC在2个数据集中排第二和两个数据集中排第三。SR和SIM表现最差。
对于AUC值,DRFI在六个数据集上再次排名最好。紧跟着DRFI,DSR在4个数据集中排第二。RBD在一个数据集居第二和2个数据集中排第三。PCA在1个数据集AUC值上排名第三的,然而采用F测度时,它并不在前三中。IT,LC,和SR性能最差。值得一提的是,所有的模型在六个benchmark数据集都比随机猜测(AUC = 0.5)的结果好。
采用MAE测度,模型排名比F或AUC得分更加多样化。DSR、DRFI和RBD排列前茅,但没有一个在JuddDB数据集排前三。MC模型虽然在F测度和AUC中表现良好,在MAE测度上在任何数据集都没有排到前三。PCA在JuddDB上最好在其他数据集上比较差。SIM和SVO模型表现最差。基于区域的方法,例如,RC,HS,DRFI、BMR、CB、DSR,与其他基于像素和基于块的模型相比,总是能较好的保存对象的边界。
这篇文章大概回答了以下的一些问题:
问题1:现在的模型是否已经达到最好,还有没有提升的空间?
答:由于IO模型是所有模型的上界,因为人们通常在标注显著物体时能达到高度一致。而现有的模型与IO模型在所有数据库上(该文提出的5个数据库,以下同)还有很大的差距,所以还有提升空间。
问题2:现有模型的准确性有没有理论下界?
答:有。将图像中的所有像素依照均匀分布输入显著值,这样得到的显著图计算出来的AUC是0.5,是理论下界。所有的模型的AUC值都大于等于这个值。
问题3:目前模型主要分为哪几类?
答:目前的方法主要分为两大类。1)基于注视点预测的模型;2)基于提取和分割显著物体的模型。平均来说,基于注视点的模型的性能要比基于物体的显著性的模型差一些。注视点预测的模型中最好的模型要比基于物体的显著性的模型中最差的要好点。
问题4:为什么两类模型在便于分割的数据上的性能不同?
答:这个原因在于真阳性和假阳性的个数。分割算法试图产生白色的显著区域来包含更多的真阳性。令一方面,注视点预测模型具有很大的选择性,很少产生假阳性点(因为图中的注视点比较少)。在分开的独立的实验中,在注视点数据库上注视点预测模型的性能要优于基于分割的模型。
问题5:将现有的模型线性组合起来的结果是否要优于单独的模型?
答:在每个数据库上组合最好的模型得到的结果,有可能要优于其他所有的模型。而组合两个做好的模型得到的结果,与组合最优的三个模型的结果差不多(少一点)。
问题6:图像中的物体的大小对模型的准确性的是否有影响?
答:在很小的物体上取得较高的准确性确实具有挑战性。如果一个图的80%是物体,那么一个模型将整个图作为显著图,将能得到80%的准确率。大多数模型在大尺度物体图中的准确性都很高。
问题7:人工标注的一致性是否影响模型的准确性?
答:人工标注越一致,模型在其上的准确率越高。
问题8:每个模型是否对同一数据库中所有的图都有相似的准确性?
答:每个模型都有自己的最容易处理的图和最难处理的图。总的来讲:在中心有很生动的物体,而周围是与之截然不同的背景的图,是所有模型最容易处理的图。而最难处理的是那些有复杂纹理背景,物体又包含几个不同部分的图,或者包含能引起top-down注意的物体(比如文本,人脸,人体,社交行为,注意力导向以及动物)。
问题9:对显著图进行高斯模糊是否对准确性产生影响?
答:高斯模型对准确性能产生轻微的影响,但是他们的定性趋势以及模型的排序保持一致。
问题10:为什么高斯模型能改变注视点预测模型,但不改变显著物体检测模型的准确性?
答:可能的原因有两个:1)在注视点上存在着不一致性,导致模型的结果通常真正落在注意点上。因此,高斯模型能改良这种结果;2)在显著物体检测里,评价指标是个图像区域里进行计算,而在注视点预测模型里,通常是在眼睛注视点的采样图上进行计算。对于前者,高斯模糊只在边缘处其左右;而对于后者,则同样能改良模型的结果。
问题11:加入中心偏置是否能提供模型的准确性?
答:所有的数据库都具有中心偏置属性。加入中心偏置能提高较差性能的模型,但对于性能较好的模型的作用则相反。
问题12:现有模型的结果之间是否存在着相似性?
答:利用线性相关系数,可能得出,现有的模型之前确实存在相似性。
问题13:模型之间的一致性与人工标注一致性之间存在什么关系?
答:他们之间的关系可以总结为:1)对于那些同时是模型一致性和人工标注一致性的图,通常包含很清晰的物体,其背景的颜色与物体的颜色截然不同;2)对于那些同时是人工标注不一致的和模型结果不一致的图,大多是那些不太容易定义显著物体的图。这些图都有复杂纹理背景,物体又包含几个不同部分。3)那些模型不一致的图通常是背景纹理较多较复杂的,而显著物体与背景的特征形似。4)最后对于那些模型一致而人工不一致的图,里面的物体通常包含多个部分,并且每个部分的特征都与背景不同。总体而言,对于人工不一致的图比较少。