行为识别相关资料

行为识别调研

一、介绍、背景

二、难点

1.类内和类间数据的差异。对于很多动作，本身就具有很大的差异性，例如不同人不同时刻的行走动作在速度或步长上就具有差异性。不同动作之间又可能具有很大的相似性

2.场景和视频的采集条件。背景是动态变化的或者光照、摄像头晃动等会影响结果。

三、数据集

1.Weizman-包含10种动作(走路、快跑、向前跳、测试跳、弯腰、挥单手、原地跳、全身跳、单腿跳)，每个动作由10个人来掩饰，背景固定并且前景轮廓已经包含在数据库中，视角固定。

2.KTH-包含6种动作(走、跳、跑、击拳、挥手、拍手)，由25个人执行，分别在四个场景下，共599段视频，除了镜头的拉近拉远、摄像机的轻微运动外，背景相对静止。

3.UCF Sports-包含10类动作(跳水、打高尔夫、踢腿、举重、骑马、跑步、滑板、摇摆、侧摆、走路)，150个视频，从广播体育频道上收集到的，涵盖很广的场景类型和视角区域。

4.UCF50/UCF101-包含50/101类动作，6680段视频，都是网络上的视频，是真实场景下的。

5.Hollywood(2)-包含12类动作，2859个视频，从电影中截取的

6. HMDB-包含51类动作，6849个视频，由布朗大学SERRE实验室发布。

7.IXMAS Action-包含17类动作，是多角度行为数据，由8个视频角度的摄像机同时对一个行为进行拍摄。由英国Kingston大学发布.中科院自动化所发布了类似的数据集，CASIA.

8.UT-Interaction-监控场景下的数据库，识别从简单的单人行为上升到多人的交互行为。

9.MSR Action 3D/MSR Daily Activity 3D-利用Kinect传感器捕获除彩色图像以外的人体深度图像序列，利用Kinect采集的深度数据可获取较为精准的人体关节点骨架序列，这些序列为深入研究人体运动模式提供了很好的研究数据。

10.Northwestern-UCLA Multiview Action 3D-将深度、骨架和多视角数据融合在一起。

11.CUM Motion Capture-利用8个红外摄像头对41个标记点的人体进行重构，更为准确的估计出人体的骨架结构。

12.Activities of Daily Living(ADL)和First Person Social Interaction—用可穿戴设备采集的第一人称视角的行为数据库.

四、方法

1 基于手工设计特征的方法

一般的行为识别方法

1）简单行为识别方法

时空体模型
时序方法

2）复杂的行为识别方法

统计模型
句法模型

多视角行为识别－可以利用多视角下数据的互补性对行为进行识别，也可以通过多视角下行为之间的联系来学习行为特征在多个视角下的转移过程，从而学得更鲁棒的行为表达。

1）通过分析人体行为在不同视角下的互补特征来对行为进行更完整的表达。

2）利用多视角下的行为数据进行跨视角的行为识别，学习视角不变的特征，这样就可以让不同摄像机的角度下可以识别同一个动作。

真实场景下的行为识别－真实场景中行为存在大量遮挡、光照变化以及摄像机运动等影响，使得提取真实场景下的前景信息非常困难，于是有人试图从时空立方体的局部出发，获取更多的时空局部特征，局部特征可以通过构建三维时空滤波器的方式快速的提取时空立方体中的兴趣点。基于局部特征的行为识别方法首先构建兴趣点检测子，如Harris3D检测子、Cuboid检测子、Hessian检测子检测感兴趣点，然后构建局部特征描述子，在兴趣点周围提取表观荷运动信息形成局部特征向量，如：Cuboid,HOG3D,HOG\HOF,ESURF描述子。

基于时空轨迹(space-time trajectory)的行为识别方法:时空轨迹是时空局部特征点方法的扩展，通过跟踪运动物体的关键点来构建更具表达能力的时刻局部规矩特征。例如，有人为了获取稠密轨迹，用光流场对特征点跟踪，得到轨迹后在加入一定约束来对轨迹进行选优。基于稠密轨迹的行为识别方法在很多公开的真实场景行为数据库中都达到了最好的结果。

基于深度图像序列的行为识别－

1）时空体模型：

2）时序方法：

基于骨架序列的行为识别

第一人称视角下的行为识别

2 基于深度学习的方法

在行为识别中，深度学习还没完全取得显著的性能提升，这是因为：相比图像样本，由于时间维度的引入，行为样本的类内差异更加丰富，行为模型的特征维度更高，需要的样本数量更多；同时在行为标注中，很难在视频中精确标记行为发生的时空区域，从而无法实现样本对齐(alignment)，导致模型训练难度更大，因此如何从时间维度入手建立深度神经网络模型对于行为数据进行训练，如RNN是当前的一个研究热点！

CNN

1).对二维图像中的CNN作扩展，通过对多帧的局部时空体做卷积来构建一个三维CNN

Ji Shuiwang,Xu Wei, Yang Ming,et a1. 3D conVolutional neural networks for human action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2013, 35(1)1 221—231

2).利用慢融合模型(slow fusion model)对视频中不同的图像帧进行融和，构建图像序列CNN，这种方式，可以有效的将视频的时序性信息加入到网络中，用于提高行为表达能力

Karpathy A,Toderici G,Shetty S,et aI.I,arge—scale video classification with convolutional neural networks[C]/,Proc of the 27th IEEE Conf on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE.201 4:l 725—1 732

3).分别对单帧图像和多帧的运动信息(光流)分别构建2个CNN网络，然后在分数层上对2种网络的输出作融和。

Sim。nyan K, Zisserman A. Two—stream convolutional ne卜 works for action recognition in videos[C]/,Proc of the 28 th Annual Conf onNeuralInformation.Cambridge,MA:MIT, 2014 568—576

4).结合时空轨迹和CNN，提出利用CNN对轨迹进行特征表达的方法，极大的提高了行为特征的表达能力，该方法在UCF101和HMDB51两个数据库中均达到了深度模型所能达到的最好结果。

Action recognition with trajectory-pooled deep-convolutional descriptors 2015CVPR

5)使用单帧数据和光流数据，从而捕获运动信息

Ch ́eron G, Laptev I, Schmid C. P-CNN: pose-based CNN features for action recognition. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santi- ago: IEEE, 2015. 3218°3226

6)在定长时间的视频块哪使用3DCNN

Carol G, Laptev I, Schmid C. Long-term temporal convolu- tions for action recognition. arXiV: 1604.04494, 2015.

7)使用多分辨率的卷积神经网络对视频特征进行提取，输入视频被分作两组独立的数据流：底分辨率的数据流和原始数据流，这两个数据流都交替的包含卷基层、正则层和抽象层，同时这两个数据流最后合并成两个全联接层用语后续的识别

Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Li F F. Large-scale video classification with convolutional neural networks. In: Proceedings of the 2014 IEEE Confer- ence on Computer Vision and Pattern Recognition (CVPR). Columbus, OH: IEEE, 2014. 1725°1732

8)使用两个数据流的卷积神经网络，将视频分为静态帧数据流和帧间动态的数据流。分别对两个数据流勇CNN进行特征提取，最后将得到的特征使用SVM进行动作的识别，他们提出只使用身体姿势的关机点部分的相关数据进行特征提取，最后使用统计的方法将整个视频转化成一个特征向量，使用SVM进行最终分类

Simonyan K, Zisserman A. Two-stream convolutional net- works for action recognition in videos. In: Proceedings of Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates, Inc., 2014. 568°576

RNN

RNN将上几个时刻的隐含层数据作为当前时刻的输入，从而允许时间维度上的信息得以保留。LSTM型RNN模型是普通RNN的扩展，主要用于解决RNN模型中梯度消亡现象。

1)LSTM将底层CNN的输出链接起来作为下一时刻的输入，在UCF101数据库上获得82.6%识别率

Ng J Y H, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G. Beyond short snippets: deep networks for video classification. arXiv: 1503.08909, 2015.

2)提出(Long-term RNN)，这个网络将CNN和LSTM结合在一起对视频数据进行特征提取，单帧的图像信息通过CNN获取特征，然后将CNN的输出按时间顺序通过LSTM，这样最终将视频数据在空间和时间维度上进行特征表达，在UCF101数据库上获得了82.92的评价识别率

Donahue J, Hendricks L A, Guadarrama S, Rohrbach M, Venugopalan S, Saenko K, Darrell T. Long-term recurrent convolutional networks for visual recognition and descrip- tion. arXiv: 1411.4389,

PS(有该论文源码，链接https://people.eecs.berkeley.edu/~trevor/）

受限波尔滋曼机-PBM

将RBN用于人体行为识别建模

Taylor G W, Hinton G E. Factored conditional restricted Boltzmann machines for modeling motion style. In: Pro- ceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009. 1025°1032

提出空间－时间深度信念网络(space-time deep belief network)使用卷积RBM神经网络将空间抽取层和时间抽取层组合在一起在视频上提取不变特征，并在KTH上获取91.13%识别率

Chen B, Ting J A, Marlin B, de Freitas N. Deep learning of invariant spatio-temporal features from video. In: Pro- ceedings of Conferrence on Neural Information Processing Systems (NIPS) Workshop on Deep Learning and Unsuper- vised Feature Learning. Whistler BC Canada, 2010

AutoEncoder-

将独立子空间分析扩展到三位的视频数据上，使用无监督的学习算法对视频块进行建模，这个方法首先在小的输入块上使用ISA算法，然后将学习到的网络和较大块的输入图像进行卷机，将卷积过程得到的响应组合在一起做为下一层的输入。

效果：KTH 93,3; UCF sport 86.5; Hollyword 2 53.3

LeQV,ZouWY,YeungSY,NgAY.Learninghierar- chical invariant spatio-temporal features for action recog- nition with independent subspace analysis. In: Proceed- ings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI: IEEE, 2011. 3361°3368

五、经典论文介绍

[1] Wang L, Qiao Y, Tang X, et al. Action recognition with trajectory-pooled deep-convolutional descriptors[C]. Computer Vision and Pattern Recognition, 2015.

[2] Wang L, Qiao Y, Tang X, et al. Actionness Estimation Using Hybrid Fully Convolutional Networks[C]. Computer Vision and Pattern Recognition, 2016.

[3] Limin Wang · Yuanjun Xiong · Zhe Wang · Yu Qiao · Dahua Lin · Xiaoou Tang Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

,2016.

[4] Wang L, Qiao Y, Tang X, et al. Action recognition with trajectory-pooled deep-convolutional descriptors[C]. Computer Vision and Pattern Recognition, 2015.

wanglimin:http://wanglimin.github.io

Code:https://github.com/wanglimin/TDD

Code:https://github.com/yjxiong/temporal-segment-networks

[5] Wang H, Schmid C. Action Recognition with Improved Trajectories[C]. International Conference on Computer Vision, 2013.

[6] Ng J Y, Hausknecht M, Vijayanarasimhan S, et al. Beyond short snippets: Deep networks for video classification[C]. Computer Vision and Pattern Recognition, 2015.

[7] Karpathy A, Toderici G, Shetty S, et al. Large-Scale Video Classification with Convolutional Neural Networks[C]. Computer Vision and Pattern Recognition, 2014.

[8] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]. International Conference on Neural Information Processing, 2014.

[9] Ji S, Xu W, Yang M, et al. 3D Convolutional Neural Networks for Human Action Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.

LSTM:

[10] Donahue J, Hendricks L A, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]. Computer Vision and Pattern Recognition, 2015.

Code:http://jeffdonahue.com/lrcn/

[11] Byeon W, Breuel T M, Raue F, et al. Scene labeling with LSTM recurrent neural networks[C]. Computer Vision and Pattern Recognition, 2015.