Reading papers_12(Attention Based Detection and Recognition of Hand Postures Against Complex Backgrounds)
论文内容介绍:
这是一篇2012年8月份发表在IJCV的文章,文章中主要实现的功能是手势的分割和识别,即对静态图片中10个数字的手势进行识别,这些手势都是处于复杂的背景下。识别算法最后在作者的NUS-II手势数据库中可以达到94%以上的识别率。
文章中主要采用了2个方面的理论,第一个理论是用数学模型来模拟人大脑皮层中与视觉区域有关的部位。神经科学研究发现,人的视觉皮层可以分为5个部分,分别为V1~V5。其中V1属于初级视皮层,V2~V5是纹外皮层。V1,V2完成的是目标检测的功能,V3,V4,V5完成的是目标识别。文章中所用的数学模型理论主要是对大脑视觉皮层模拟的一个简化,这里只是模拟了V1和V4区,即分别对应着目标检测和目标识别步骤。
其中第一个理论是用于模拟视觉皮层的模型,该模型是层次的,分为4个层次,名字分别叫做S1,C1,S2,C2。S是代表simple,C代表complex,分别对应着视觉皮层的简单细胞体和复杂细胞体。S1层用的是一个多尺度的gabor滤波器来实现的,经过gabor滤波后就提取出来了跟边缘和纹理有关的特定方向上的特征;C1是在S1的基础上,在尺度和位置上都取最大值得到的图像,这样做的目的是保持目标的尺度无关等不变特性。S2是在C1的基础引用训练好了的patch模型,拿出模型来与C1中对应于模型大小尺寸的图像做运算,运算数学公式是径向基函数,这样的话C1得到的图像与训练好的N个patch都做了对比训练,达到了识别的效果。C2是在S2的结果上采用了max操作,并且是在不同的尺度上进行max操作的,其目的同样是可以保持识别过程中的某些不变特性。最后经过这4步操作后得到的是N个矩阵,把这N个矩阵组合成一个向量,该向量就是输入图像的特征向量了。
第2个理论是视觉选择性注意模型。也就是说怎么完成类似于人眼第一步看见一张图片,然后就会关注自己感兴趣的区域这一功能。这一理论采用的是贝叶斯网络,该网络中引入了特征分布的先验知识。比如该文章是采用的特征选择性注意,不是空间选择性注意。即先假设手势在空间出现的概率是均等分布的。然后通过样本数据库来训练出一些特征的先验概率,最后丢到贝叶斯网络中,求出输入图像中的每个像素点手势的空间分布概率图,即saliency图。当然了,在该贝叶斯网络中提到的先验知识不仅仅包含皮肤颜色先验,还包括形状,纹理等特征的先验。这些都是通过训练得到的。在测试阶段提取出来的特征向量和训练处的先验知识一起扔到网络中,最后就可以计算出图中手出现的位置概率分布了。
在对一副图片运用第一个理论时,输入的并不是其灰度图,而是将原图初步运算后提取出的类皮肤图。即通过统计的方法计算出数据库中手势皮肤的H,S,Cb,Cr的平均值,最大最小值,最后对每个像素通过一个公式计算出类似皮肤的图片,该图片也是灰度的,灰度值的不同表示是皮肤颜色的程度不同。当把类皮肤图片输入到第一个视觉皮层模型中后,最后得到的是一个向量,把该向量值通过变换再输入到第2个理论的贝叶斯网络中,得到的是一张手势saliency图。得到该图后,在该图的附近进行分割(其分割依据比较简单,直接取信任图前30%的区域即可),最后对分割出来的部分再次利用理论一提取其SMFC2特征向量,将该特征向量扔到事先训练好了的SVM分类器中,得到分类结果。
这篇文章比较有新意的地方是手势的分割,作者将选择性注意模型引了进来,且模拟了人体大脑视觉皮层的部分功能。效果还不错,但是手势识别的时间还是过长,虽然作者说比2001年的EGM算法(比较老的算法)要快几倍。但是每张图片识别仍然需要2.65s的时间,当在realtime时还是远远不够的。
报告的ppt内容如下:
参考文献:
1. Pisharady, P. K., P. Vadakkepat, et al. (2012). "Attention Based Detection and Recognition of Hand Postures Against Complex Backgrounds." International journal of computer vision: 1-17.
2. Serre, T., L. Wolf, et al. (2007). "Robust object recognition with cortex-like mechanisms." Pattern Analysis and Machine Intelligence, IEEE Transactions on 29(3): 411-426.
3. Chikkerur, S., T. Serre, et al. (2010). "What and where: a Bayesian inference theory of attention." Vision research 50(22): 2233-2247.
附录: ppt下载。