前景监测
可以简短地将问题概括如下:
- 对静态背景进行前景提取
- 对动态视频进行前景提取
- 对晃动视频进行前景提取
- 对多视角的视频进行有效的前景提取
- 前景提取的作用(群体性事件的预警?)
对静态背景进行前景提取
对于静态的背景,我们可以采用高斯混合模型(以下推理部分主要来自[1])利用视频每一帧的信息拟合出一个背景,然后利用背景差分的办法提取出前景目标。记每一帧的图像中某一个点的像素值为序列X={X1,X2,...,Xt},其中Xi是相互独立的随机统计过程。
由于固定场景中,图中像素点相对稳定,假设每个像素点均服从正态分布,一般地,我们可以用K个正态分布去描述一个像素点,K个状态中一部分表示像素点为背景时候的状态,一部分表示像素点为前景时候的状态。为了减少计算量,一般K值取3。
由于某个像素点的灰度值用随机变量Xt表示,其概率密度函数可以表示为:
其中η(x,μi,t,Σi,t)是t时刻的第i个正态分布,其均值为μi,t,方差为Σi,t,为第i个正态分布在t时刻的权重,并有∑i=1kωi,t=1,其中:
上式中n表示Xt的维数,由于本文算法在提取前景目标的时候采用的是灰度图像,所以我们可以取n=1。首先初始化模型的参数,设μ0表示图像序列X={X1,X2,...,Xt}中某个像素点的平均灰度值,σ20为其对应的平均均方差,即:
上式中N表示视频的帧数,初始化ωi=1/k。接下来,为了区分前景和背景图像,我们需要定义一个匹配函数χ(Xi,t):
若χ(Xi,t)=1,我们称当前像素值Xi,t与其模板匹配,否则称为不匹配。上式中D为一个阈值参数,一般取2.5,μi,t表示Xi,t的第i个正态分布的均值,σi,t−1类似地定义。如果Xi,t与K个正态分布中存在匹配的话,说明Xi,t满足一个或多个正态分布的描述,匹配的分布我们按下式对分布进行更新,若不匹配的分布保存原值:
其中α表示更新率,α越大更新速率越快,但是为了减少引入更多的背景噪声,一般选取较小的值,ρ表示参数的更新率,定义为ρ=α/ωi,t,对于匹配的正态分布Mi,t,k取为1,否则取为0,。如果像素点Xi,t和所有的正态分布均不匹配,说明Xi,t很可能是运动目标出现的点,或者运动目标移动过后显现的背景点,此时我们对K个正态分布中权重最小的那个分布的均值用Xi,t替代,另外初始化一个较大的标准差σ,其余正态分布保证不变,然后权重按上式权重更新公式进行更新。(取Mi,t,k=0)
考虑一个视频图像,由于我们考察的背景是相对静止的。所以,对于每一个背景点,其方差是比较小的,根据上述更新公式可以知道,用于描述背景点的高斯分布的权重不断增大,考虑这两个特点,我们可以建立如下前景提取办法,首先对权重进行归一化处理:
接下来,根据ωi,t,k/σi,t,k,从大到小对每个像素的K个正态分布进行排序。注意到,权重越大,方差越小的话,比值ωi,t,k/σi,t,k越大,即成为背景点的可能越大。我们设置一个区分点s,令排序前s个正态分布作为背景模型,剩下的作为前景模型,
其中T为一个自定义的阈值,一般经验取值为0.85,最后,对于目标视频,我们对每个像素点的Xi,t与前s个描述背景的正态分布进行匹配,如果存在一个匹配,那么令该点为背景点,否则令其为前景点。
我们利用本节模型对pedestrian视频进行处理,得到如下结果:
结果一般,差强人意。上图分别为视频在第18帧到第21帧的分离结果,其中图(a)是分离结果,图(b)是视频原图。可以看出距离摄像机较近的部分分离效果良好,较远的目标分离效果欠佳,总体而言可以较好地提取前景目标。
对动态视频进行前景提取
对于动态背景的视频,我们不妨假设背景的变化幅度是较小的。这样我们可以把它看作是一个微小的扰动(黔驴技穷),我们可以利用图像的形态学处理和中值滤波对背景进行处理,结合本节的高斯混合模型对waterSurface视频处理可以得到如下结果:
上图中(a)为直接用本节的高斯混合模型得到的分离结果,图(b)为进行形态学处理和中值滤波之后的结果,可以看出图(b)的结果基本消除了背景的动态扰动,具有较好的结果。
晃动视频的前景目标提取
我们不妨假设晃动的幅度不大,此时我们可以将这样的幅度变换近似地看成是仿射变换。如下图所示:
将视角统一后,我们便可以把晃动视频的情况转换为固定视角的视频,由此可以由上一节的高斯混合模型得出前景分离结果。下面我们将以目标视频的第一帧作为基准,将其他帧的视频全部矫正为第一帧的视角,注意到的是我们考虑的视频必须是短时间的,这样能保证,其他帧到第一帧的仿射变换总是存在的(更进一步地,实际上只要保证对应的像素点至少有两对即可)。
我们设基准图像上的像素为(x′,y′)T,其它帧上对应的像素点为(x,y)T,于是有如下仿射变换:
利用对视角变化等仿射变换具有强大稳定性的SIFT算法我们可以获得足够多的特征点,下面我们利用获得的足够多的特征点来拟合求解出仿射变换对应的变换矩阵。以变换矩阵的第一行为例,我们有a11x+a12yb1=x′,若有N组特征点,那么有:
上式可以简写为Xa=c,其中a=(a11,a12,b1)T,以及有X=(x(j),y(j))∈RN×2,c=x′(j),由于这一般是一个超定方程,由最小二乘法的思想我么可以将问题转换为求解mina∥Xa−c∥22。
令E=∥Xa−c∥22,展开得E=aTXTXa−2aTXTc+cTc,下面对E做关于a的偏导有:
分析可知,当a=(XTX)−1XTc的时候,E可以取得最小值,注意到XTX可逆的概率为1,即使不可逆也可以重新获取一次特征点。类似地,我们可以求解完整的仿射变换矩阵a。
获得上图后不能马上用高斯混合模型进行处理,这是因为可以看到校正后的视频(图(b))有大量的黑边,如果直接套用高斯混合模型,将会把黑边的变化造成的噪声也识别出来。我们必须找到一个合适的视角区域,由于我们可以认为处理的视频是一个较短的视频,基于这个假设,我们可以取所有校正后的视频的公共重叠部分。可以知道,由假设,这个公共重叠部分是足够大的。
获得重叠的视角区域后,我们对所有校正后的视频都进行裁剪,接着利用高斯混合模型可以获得前景目标。最后我们利用在校正时候获得的变换矩阵a,重新构造一个仿射逆变换a−1,最终将前景目标的晃动复原,结果如下图所示:
多视角的前景目标提取
多个视角的视频能给我们更多的信息,我们可以根据这些信息对前景目标进行三维重建。如下图所示,我们令绿色区域为我们的三维空间中的观测区域,以三个摄像机为例。考虑观测空间中的一个体像素v,若它和前景目标相交,则称为存在,否则称为不存在。用如下概率表示:
其中i表示第i个体像素,I是所有观测视频的即可,即I={I1,I2,...,IN},其中的Ik表示第k个观测视频图像。
对P{Ev(i)=1|I},由贝叶斯公式有: