视频显著性 论文阅读笔记

RGB :RGB色彩模式是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。

Depth Map:在3D计算机图形中,Depth Map(深度图)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中,Depth Map 类似于灰度图像,只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的,因而像素点之间具有一对一的对应关系。

本文主要提到了自上而下和自下而上两种类别的方法

基于变换的方法主要是傅里叶变换和离散余弦变换:

1. 侯晓迪等人提出的sr(谱残差)方法 ,将每个像素的值表示为由强度、颜色和运动特征组成的四元数,进而利用四元数傅

里叶变换的相位谱(phase spectrum of quaternion Fourier transform,简称 PQFT)计算视频序列的时空显著性,但是侯后来否认了这种方法的正确性,但是仍然是很不错的方法,有着不错的应用。

2 时间频谱残差方法,这种方法的实时性很不错

3.特征对比的模型,先获得静态显著图,然后获得运动向量

基于变换的视频显著性检测方法得到的结果仅能确定视频序列中显著性目标的大体位置和主要轮廓,
显著性目标的内部区域的均匀性和完整性较差,通常只能应用于检测、跟踪等领域.由于该类算法仅利用了一
些简单的变换关系获取显著性信息,所以算法的运算速度较快,非常适合于大型的实时系统.
 
基于信息论的方法主要是运用了香农定理,原理是对于小概率的事件,信息量多
论文中提到:
首先,将视频序列进行划分,得到空间向量集合和时间向量集合,
进而利用信息论方法计算得到空间显著性结果和时间显著性结果.然后,利用动态融合机制将两种显著性图融
合得到空时显著性结果.在计算信息显著性图过程中,算法通过降维和核密度估计(kernel density estimation,简称
KDE)方法提取输入视频数据的信息量
 
基于稀疏表示的方法:
利用频片段的随机采样块去训练学习一个过完备字典,得到每个视频帧的良好表达.然后,利用该字典对每帧视频的
进行稀疏表示,并根据其熵增益选择稀疏特征,构建视频帧的空间显著性图.最后,将所有选择的特征响应进行加
权求和后得到最终的视频显著性图。
 
基于视觉先验的方法:
许多视频显著性检测方法容易偏向于边缘或角落区域,这在统计学上具有一定的意义,但并不符合人类的
视觉感知机制.此外,由于显著性区域和高度纹理结构背景之间的模糊性,使得现有方法往往不能在复杂场景中
准确定位显著性区域,大多数都是通过空时特征,构建先验图,然后融合得出结果。
 
机器学习方法:
1.传统学习方法:
主要用的是crf(条件随机场)建模。
2.深度学习方法:
目前只看到了两种,这是目前的研究热点
.这样的操作可以直接在动态网络部分输出空时显
著性结果,而不需要耗时计算光流信息,节省了大量的训练和检测时间.针对标注数据量不足的问题,该方法提出
了一种新的数据增强方法,它根据现有的大量带标注的图像数据,仿真生成了视频训练数据,这使得算法网络能
够学习多种显著性信息,防止了利用有限训练数据导致的过拟合问题.。
 
研究总结:
(1) 由于缺少运动信息和帧间信息约束,单图显著性检测方法不能有效地提取视频中的显著性目标
(2) 协同显著性检测算法虽然引入了帧间关系,但缺少运动信息,因而也不能获得较好地检测视频中的显著
性目标.
最后论文提出了展望:
(1) 有效挖掘视频序列的运动信息,探索运动与显著性之间的关系,设计有效的运动显著性度量.
 2. 视频序列中并非每一帧中都存在显著性目标,而且有可能单帧视频中的显著性目标并非是整个视频的
显著目标,因此还需要处理如下几种特殊情况.
① 某些视频帧中没有显著性目标,可以通过设计一种判别机制来对视频帧进行预甄别来解决该问题.
② 某些视频帧中出现了新目标,进而可能存在遮挡问题,还需进一步对目标进行判别,此时应考虑视频显
著性目标的全局一致性.
③ 某些视频序列的目标运动过快,这样容易产生运动模糊等问题,还需进一步研究解决方案.
3. 因为视频中往往帧间差距不大,所以研究显著性目标在每一帧之中的联系也很重要

 

posted @ 2019-10-12 15:42  coolwx  阅读(439)  评论(0编辑  收藏  举报