-
- 一、简介
- 先介绍了Videos understanding的重要性
- 接着提出Action recognizes是Videos understanding的关键,指出复杂动作识别不仅仅依赖于空间,而且依赖与时间。而且空间上。具有块空间上相似特征,可能在时间上特征完全相反。指出了传统的模型,只考虑到了空间上的依赖,但是没有考虑到时间依赖性。
- Two stream 架构比起单纯的3D CNNs来说有更好的空间和时间特性,但是Two stream很昂贵贵,实际应用不太现实。3D CNNs也有过拟合和慢收敛的缺点。而且好多框架都继承了3D CNNs的这种缺点。2D CNNs框架中提到了:TSN(最初的2D CNNs,缺乏时间魔模型的能力,容易丢失关键动作),TSM(缺乏针对明确动作的时间模型)
- 本篇论文提供了一个即插即用、轻量级的和two stream结构很相似的结构,但是与two stream不同的是,不为了训练网络而产生另外的输入(不太懂,可能Two stream训练网络还要再产生一个输入的吧)
- Action有三个组成成分:时空激励运算(STE),信道激励运算(CE),和行动激励运算(ME)
- 第1部分末尾给出了本文Action net的几个研究方面
- 二、相关工作
- 基于3D卷积网络框架
- I3D(Inflated the Convnet)扩展了2D卷积核至3D卷积核,SlowFast可以分别识别视频中的快慢部分。3D卷积网络缺点是:容易过拟合、不容易收敛、计算比2D的要复杂的多。
- 基于2D卷积的框架
- TSN(Temporal Segment Networks):引入了segment来处理视频
- TSM(Temporal Shift Module):在2D CNN中潜入了可以使部分channel转化的操作,但缺乏对动作的显著时间模型
- 最近几项新的研究可以使得模型能够得到模型和时间信息,而且被证明在ResNet结构上比较高效
- SENet 和 Beyond
- SENet:SE(squeeze-and-excitation)嵌入到2D CNNS
- ActionNet:由STE(Spatio-Temporal Excitation)、CE(Channel Excitation)、ME(Motion Excitation)构成(以平等的方式),这样视频中多种信息会被触发。
- 三、设置Action网络
- Acrion 模型种所有tensors 都是4维的(N×T,C,H,W),首先将4Dtensors转变成5Dtensors(N,T,C,H,W)送到ACTION中,以便与对ACTION内部的特定tensors进行操作。之后再将5Dtensors 转变为4D放到2D卷积模块中
- STE
- M:spattio-temporal mask (N,T,1,H,W)
- 四、实验
- 执行细节:
- 训练过程
- 对视频的处理和TSN一样
- 将视频等长度分成T个片段;之后随机的在每个片段中选择一帧,从而获取到T帧的一个片段。
- (之后提到了shorter side、cropping、scale-jittering不太懂这些概念,可能意思是将其中一些不太规整帧的尺寸修剪为256像素)。每一帧最终像素被resize为224,用于训练模型。
- input为:N×T×3×224×224;其中N:batch size、T:片段的数量。
- 对于Something-Something V2数据集来说,学习率开始为0.01,之后再epoch为30、40、45的时候减少了10倍,最后在epoch为50的时候停止
- 对于Jester数据集来说,学习率开始为0.01,之后再epoch为10、20、25的时候减少了10倍,最后在epoch为30的时候停止
- 对于EgoGesture数据集来说,学习率开始为0.01,之后再epoch为5、410、15的时候减少了10倍,最后在epoch为25的时候停止
- 推断:通过three-crop(三次裁剪)方法进行推断
- 首先把每帧的短边裁剪为256像素,之后可以得到三个256×256的crops
- 改善2D CNNs的表现
- ACTION-NET、TSN、TSM比较
- 图中Top-1是指,在结果得到的概率中,概率最大的为正确答案则预测正确。Top-5是指,在所有的答案概率中,排名前五有正确答案则为预测正确
- 与最先进的技术进行比较
- ACTION-NET 与 TSN、TSM进行比较
- 提出了一个效率系数:
- ACTION Block 数量的影响
- 数量越多,效果越好
- 效率和灵活度的分析
- 和TSM一样,是即插即用的,所以可以嵌入到2D卷积神经网络中
- 结论
posted @
2021-06-05 16:58
JQbiu
阅读(
392)
评论()
编辑
收藏
举报