ACTION-Net论文笔记

    • 一、简介
      • 先介绍了Videos understanding的重要性
      • 接着提出Action recognizes是Videos understanding的关键,指出复杂动作识别不仅仅依赖于空间,而且依赖与时间。而且空间上。具有块空间上相似特征,可能在时间上特征完全相反。指出了传统的模型,只考虑到了空间上的依赖,但是没有考虑到时间依赖性。
      • Two stream 架构比起单纯的3D CNNs来说有更好的空间和时间特性,但是Two stream很昂贵贵,实际应用不太现实。3D CNNs也有过拟合和慢收敛的缺点。而且好多框架都继承了3D CNNs的这种缺点。2D CNNs框架中提到了:TSN(最初的2D CNNs,缺乏时间魔模型的能力,容易丢失关键动作),TSM(缺乏针对明确动作的时间模型)
      • 本篇论文提供了一个即插即用、轻量级的和two stream结构很相似的结构,但是与two stream不同的是,不为了训练网络而产生另外的输入(不太懂,可能Two stream训练网络还要再产生一个输入的吧)
      • Action有三个组成成分:时空激励运算(STE),信道激励运算(CE),和行动激励运算(ME)
      • 第1部分末尾给出了本文Action net的几个研究方面
    • 二、相关工作
      • 基于3D卷积网络框架
        • I3D(Inflated the Convnet)扩展了2D卷积核至3D卷积核,SlowFast可以分别识别视频中的快慢部分。3D卷积网络缺点是:容易过拟合、不容易收敛、计算比2D的要复杂的多。
      • 基于2D卷积的框架
        • TSN(Temporal Segment Networks):引入了segment来处理视频
        • TSM(Temporal Shift Module):在2D CNN中潜入了可以使部分channel转化的操作,但缺乏对动作的显著时间模型
      • 最近几项新的研究可以使得模型能够得到模型和时间信息,而且被证明在ResNet结构上比较高效
      • SENet 和 Beyond
        • SENet:SE(squeeze-and-excitation)嵌入到2D CNNS
        • ActionNet:由STE(Spatio-Temporal Excitation)、CE(Channel Excitation)、ME(Motion Excitation)构成(以平等的方式),这样视频中多种信息会被触发。
    • 三、设置Action网络
      • 符号说明:
        • N: batch size;
        • T: number of segments
        • C: channels
        • H: height
        • W:width
        • r: channel reduce ratio
      • Acrion 模型种所有tensors 都是4维的(N×T,C,H,W),首先将4Dtensors转变成5Dtensors(N,T,C,H,W)送到ACTION中,以便与对ACTION内部的特定tensors进行操作。之后再将5Dtensors 转变为4D放到2D卷积模块中
        • STE
          • M:spattio-temporal mask (N,T,1,H,W)
          • X: 输入向量(N,T,C,H,W)

        • ME

        • CE

        • ACTION-NET

    • 四、实验
      • 数据集:
        • Something-Something V2
        • Jester
        • EgoGesture
      • 执行细节:
        • 训练过程
            • 将视频等长度分成T个片段;之后随机的在每个片段中选择一帧,从而获取到T帧的一个片段。
            • (之后提到了shorter side、cropping、scale-jittering不太懂这些概念,可能意思是将其中一些不太规整帧的尺寸修剪为256像素)。每一帧最终像素被resize为224,用于训练模型。
          • input为:N×T×3×224×224;其中N:batch size、T:片段的数量。
          • 使用当N=64时、T=8,当N=48时,T=16
          • 网络权重默认使用ImageNet预处理的权重
          • 对于Something-Something V2数据集来说,学习率开始为0.01,之后再epoch为30、40、45的时候减少了10倍,最后在epoch为50的时候停止
          • 对于Jester数据集来说,学习率开始为0.01,之后再epoch为10、20、25的时候减少了10倍,最后在epoch为30的时候停止
          • 对于EgoGesture数据集来说,学习率开始为0.01,之后再epoch为5、410、15的时候减少了10倍,最后在epoch为25的时候停止
          • 首先把每帧的短边裁剪为256像素,之后可以得到三个256×256的crops
          • 对整个视频随机采样十次
          • 最后预测的Softmax评分时所有片段的平均值
      • 改善2D CNNs的表现
        • ACTION-NET、TSN、TSM比较
          • 图中Top-1是指,在结果得到的概率中,概率最大的为正确答案则预测正确。Top-5是指,在所有的答案概率中,排名前五有正确答案则为预测正确
        • 与最先进的技术进行比较

          • ACTION-NET 与 TSN、TSM进行比较

            • 提出了一个效率系数:
          • ACTION Block 数量的影响
            • 数量越多,效果越好
        • 效率和灵活度的分析
          • 和TSM一样,是即插即用的,所以可以嵌入到2D卷积神经网络中


    • 结论
      • 能使任何2D神经网络构建Action-Net
      • 从三个大数据集中证明了Action-Net的效率
    •   
posted @ 2021-06-05 16:58  JQbiu  阅读(373)  评论(1编辑  收藏  举报