视觉显著性检测(Visual saliency detection)相关概念
视觉显著性检测(Visual saliency detection)指通过智能算法模拟人的视觉特点,提取图像中的显著区域(即人类感兴趣的区域)。
视觉注意机制(Visual Attention Mechanism,VA),即面对一个场景时,人类自动地对感兴趣区域进行处理而选择性地忽略不感兴趣区域,这些人们感兴趣区域被称之为显著性区域。如图所示,当看到这幅图像时,图中的四个人最能引起人的注意。
人类视觉注意机制有两种策略:
1)自底而上基于数据驱动的注意机制
仅受感知数据的驱动,将人的视点指导到场景中的显著区域;通常与周围具有较强对比度或与周围有明显不同的区域吸引自下而上的注意。利用图像的颜色、亮度、边缘等特征表示,判断目标区域和它周围像素的差异,进而计算图像区域的显著性。下图为自下而上的注意,第1列浅灰色条和第 2 列的竖直摆放的条形能立即引起人的注意。
2)自上而下基于任务驱动的目标的注意机制
由人的“认知因素” 决定, 比如知识、预期和当前的目标.对图像的特定特征来计算图像区域的显著性。下图为自上而下的注意,监控任务下, 场景中的人体能引起注意。
在机器人和计算机视觉领域, 研究者们对视觉注意机制的兴趣与日俱增, 因为该机制可从大量的视觉数据中确定出最相关的部分。因此,近年来研究者们在特征综合理论和Guided search等注意的心理学模型基础上, 提出了大量的可计算的注意力选择模型,以用于模拟人类的视觉注意机制。这些模型包括: 基于认知、贝叶斯、决策论、信息论、图模型、频域分析和基于模式分类的等人视觉注意模型。
一、认知注意模型
Itti于1998年提出基于显著性的视觉注意模型,并在2001年度Nature上对该模型理论作了进一步的完善。Itti的显著性模型最具代表性,该模型已经成为了自下而上视觉注意模型的标准。其基本结构如下图所示。
对于一幅输入图像,该模型提取初级视觉特征:颜色(RGBY)、亮度和方位、在多种尺度下使用中央周边(Center-surround)操作产生体现显著性度量的特征图,将这些特征图合并得到最终的显著图(Saliency map)后,利用生物学中赢者取全(Winner-take-all)的竞争机制得到图像中最显著的空间位置, 用来向导注意位置的选取,最后采用返回抑制 (Inhibition of return) 的方法来完成注意焦点的转移。
二、决策论注意模型
决策论的观点认为,不断进化的感知系统能产生关于周围环境的、在决策论意义下的最优决策。要点在于视觉注意应被与当前任务有关的最优性所驱动。决策论注意模型既能表达自下而上的注意,也能表达自上而下的注意。并已经在计算机视觉中得到了成功的应用,如分类和注意定位预测,均取得很高的准确率。
三、频域分析注意模型
基于频谱分析的显著性模型,形式简洁,易于解释和实现,并且在注意焦点预测和显著区域检测方面取得了很大的成功,由于基于快速傅里叶变换实现,能够满足实时要求,和iNVT类似的模型相比,运算速度可提高近10倍。美中不足的是, 其生物合理性不是非常清楚。
四、图论注意模型
图模型是一个使用图对随机变量之间的条件依赖结构进行表示的概率框架。这种类型的注意模型,把眼动看作一个时间序列。由于有大量的隐变量影响眼球运动的产生,因此,该类注意模型使用了隐马尔科夫模型、动态贝叶斯网和条件随机场等方法。图模型可以对复杂的注意机制建模,因此能取得较好的预测能力,缺点在于模型的高复杂度,尤其涉及训练和可读性时。