MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection

0.前言

相关资料：
论文基本信息：

领域：时序动作检测
发表时间：CVPR2022(2022.3.29)

摘要

　　动作检测是一项重要且具有挑战性的任务，尤其是在未裁剪视频的密集标注数据集中。这些数据包含复杂的时间关系，包括复合或同时发生的动作。为了检测复杂环境中的动作，有效地获取短期和长期的时间信息是至关重要的。为此，本文提出了一种新的用于动作检测的transformer网络:MS-TCT。该网络由3部分组成:(1)时序编码模块，能够在多时间分辨率下挖掘全局和局部时序关系;(2)时序尺度混合模块，能够有效融合多尺度特征，形成统一的特征表示;在Charades、TSU和MultiTHUMOS数据集上的实验结果验证了该方法的有效性，在所有3个数据集上的性能均优于现有方法。

1.介绍

　　动作检测是计算机视觉领域中一个著名的问题，其目的是在未修剪视频中精确地发现动作的时间边界。它很好地符合现实世界的设置，因为视频的每一分钟都可能充满了多个需要检测和标注的动作。有一些公共数据集[11,42,52]提供了密集的标注来解决这个问题，其动作分布与现实世界相似。然而，这些数据可能具有挑战性，因为在不同的时间跨度同时发生多个动作，而且背景信息有限。因此，理解动作之间的短期和长期时间依赖关系对于做出良好的预测至关重要。例如，“取食”的动作(见图1)可以从“打开冰箱”和“制作三明治”中获得上下文信息，分别对应短期和长期动作依赖。此外，“把东西放在桌上”和“做三明治”的出现提供了上下文信息，以检测复合动作”烹饪”。这个样本表明，需要一种有效的时序建模技术来检测密集标注视频中的动作。

　　图1所示。未裁剪视频中的复杂时间关系:在这里，我们展示了一个典型的动作分布，它包含了动作之间的长期和短期依赖关系。

　　为了在未修剪视频中建模时间关系，以前的多种方法[9,10,12,13,31,39]使用一维时间卷积[31]。然而，受核大小的限制，基于卷积的方法只能直接获取视频的局部信息，不能学习视频中时间距离较远的片段之间的直接关系(这里，我们将一组连续的帧视为一个片段)。因此，这种方法不能模拟片段之间的远程交互作用，而这对动作检测可能很重要。随着Transformers[17,35,45,57]在自然语言处理和最近在计算机视觉方面的成功，最近的方法[43,44]利用多头自注意力(MHSA)对视频中的长期关系建模，以进行动作检测。这种注意力机制可以在每个时间片段时序(即时序token)之间建立直接的一对一的全局关系。检测高度相关和复合动作。然而，现有的方法依赖于在输入帧本身上对这种长期关系建模。在这里，一个时序token只包含很少的帧，这通常与动作实例的持续时间相比太短了。此外，在这种设置中，transformers需要明确地学习由于时间一致性而产生的相邻token之间的强关系，而这对于时间卷积来说很自然的(即局部归纳偏差)。因此，纯粹的transformer体系结构可能不足以建模复杂的动作检测时序依赖关系。

　　为此，本文提出了一种融合卷积和自注意力的多尺度时序ConvTransformer(Multi-Scale Temporal ConvTransformer, MS-TCT)模型。我们在基于token的体系结构中使用卷积来促进tokens的多个时间尺度，并混合相邻tokens，从而轻松实现时间一致性。事实上，MS-TCT是建立在使用3D卷积骨干[5]编码的时间片段之上的。每个时间片段被视为MS-TCT的单个输入token，在不同的时间尺度上分多个阶段进行处理。这些尺度是由时间片段的大小决定的，在每个阶段的输入时，它被认为是一个单一的token。不同的尺度允许MS-TCT在早期阶段学习原子动作(如“打开冰箱”)之间的细粒度关系，在后期阶段学习复合动作(如“烹饪”)之间的粗粒度关系。每个阶段由一个用于合并token的时间卷积层、一组多头自注意力层和时间卷积层组成，分别建模全局时间关系和注入局部token之间的信息。由于卷积引入了归纳偏置[16]，MS-TCT中使用的时间卷积层可以注入与token相关的位置信息[22,24]，甚至没有任何位置嵌入，而不像纯Transformers[17]。其次，在不同尺度上对时序关系建模，利用混合模块融合各阶段的特征，得到统一的特征表示;最后，为了预测分布密集的动作，在MS-TCT中除了常见的多标签分类分支外，还引入了一个热图分支。这种热图鼓励网络预测每个动作类实例的相对时间位置。图2显示了相对时间位置，它是基于一个由实例中心及其持续时间参数化的高斯滤波器计算的。它表示在任何给定时间相对于动作实例中心的相对时间位置。通过这一分支，MS-TCT可以在token表示中嵌入class-wise的时间位置信息，从而实现复杂视频中的判别token分类。

　　综上所述，主要工作是:(1)提出了一种高效的ConvTransformer用于建模未修剪视频中的复杂时序关系；(2)引入一个新分支来学习与实例中心相关的位置，这有助于在密集标注的视频中进行动作检测；(3)在3个具有挑战性的密集标注动作数据集上改进了最先进的技术。

　　图2。相对时间位置热图(G^∗):我们给出了一个包含两个重叠动作实例的视频片段。高斯曲线表示时间热图的强度，以每个动作的中点为中心。

2.相关工作

　　近年来，动作检测受到了广泛关注[8,13,15,21,32,51,54]。在这项工作中，我们专注于密集标注视频中的动作检测[11,42,52]。早期对复杂时间关系建模的尝试倾向于使用基于锚点的方法[6,50]。然而，密集的动作分布需要大量锚点。Superevent[38]利用一组高斯滤波器学习视频片段，再用软注意力机制对片段进行总结，形成全局表示。但是，由于高斯函数与输入视频无关，因此不能有效处理复合动作频率较低的视频。同样，TGM[39]也是一个基于高斯分布的时间滤波器，它可以通过有限的参数学习较长的时间结构。PDAN[10]是一种时间卷积网络，具有对输入数据自适应的时间核。尽管TGM和PDAN在建模复杂的时间关系方面取得了最先进的性能，但这些关系仅限于局部区域，从而阻止它们学习长期关系。Coarse-Fine网络[27]以Slow-Fast[19]的方式利用两个X3D[18]网络。该网络可以联合建模时空关系。然而，它受限于X3D主干中输入帧的数量，高效处理长视频需要较大的步幅。这使得Coarse-Fine网络在检测动作边界时不能考虑长视频中的细粒度细节。并发工作[26]研究仅使用分类标签的检测预训练，以提高下游动作检测。最近，有人尝试显式地建模长时关系:MTCN[29]利用动作和标签的时间上下文，而TQN[53]将类别分解为预定义的属性查询，以预测细粒度的动作。然而，将这两种方法都扩展到未裁剪视频的动作检测中并不是一件容易的事情。

　　最近的Transformer模型在图像和视频领域[2,3,7,17,35,36,40,46,47,49,55,57]都取得了成功。尽管TimeSformer[45]等视觉transformer可以考虑帧级输入token来建模时序关系，但它仅限于短视频clips，不足以建模较长的真实世界视频中的细粒度细节。作为一种折衷，目前的动作检测方法在由3D卷积骨干[5]编码的视觉片段上使用多头自注意力层。RTD-Net[43]是DETR[57]的扩展，它使用一个transformer译码器来模拟提议和token之间的关系。但是，该网络仅针对稀疏标注视频[4,25]设计，每个视频中只存在一个动作。在密集的动作分布中，RTD-Net中的边界检测模块无法分离前景和背景区域。mad[44]学习class-specific的特征，并使用transformer编码器在每个时间步长建模类间关系和每个类的时序关系。然而，mad难以处理具有复杂标签[42]的数据集，因为很难在这类视频中提取class-specific的特征。与其他用于动作检测的transformer不同，本文提出了一种新的transformer:MS-TCT，它继承了transformer编码器结构，同时利用了时间卷积技术。我们的方法可以在不同的时间尺度上对全局和局部的时间token进行建模。虽然有其他的ConvTransformer[16,22,28,48]用于图像分类，但我们的网络是为密集标注的动作检测设计的。

　　图3。用于动作检测的多尺度时域变换(MS-TCT)由4部分组成:(1)视觉编码器，(2)时序编码器，(3)时序尺度混合器(TS混合器)和(4)分类模块。其中TC表示核大小为k的一维卷积层。

3.多尺度时序ConvTransformer

　　首先，定义了密集标注环境下动作检测的问题说明；形式上，对于一个长度为T的视频序列，每个时间步T包含一个ground-truth动作标签y_t,c∈{0,1}，其中c∈{1，…， C}表示动作类。对于每一个时间步，一个动作检测模型需要预测类的概率∈[0,1]。在此，我们描述了提出的动作检测网络:MS-TCT。如图3所示，它由四个主要组件组成:(1)对初步视频表示进行编码的视觉编码器(Visual Encoder)，(2)在不同时间尺度上对时间关系进行结构建模的时间编码器(即时间编码器)。(3)一个时间尺度混合器，称为TS混合器，它结合了多尺度的时间表征;(4)一个分类模块，预测类的概率。在下面的章节中，我们将介绍MS-TCT每个组件的详细信息。

3.1.视觉编码器

　　我们的动作检测网络MS-TCT的输入，是一个未经修剪的视频，可以跨越很长的时间[11](例如几分钟)。然而，在空间和时间维度上处理长视频可能是具有挑战性的，主要是由于计算负担。作为折衷，类似于之前的动作检测模型[10,39,44]，我们将3D CNN提取的视频片段的特征作为MS-TCT的输入，以通道的形式潜在地嵌入空间信息。具体来说，我们使用I3D主干[5]来编码视频。每个视频分为T个不重叠的片段(训练时)，每个片段由8帧组成。这样的RGB帧作为输入片段提供给I3D网络。每一个片段级特征(I3D的输出)都可以看作是一个时间步的transformer token(即时序token)。我们沿着时间轴堆叠token，形成T × D₀视频token表示，被送入时间编码器。

3.2. 时间编码器

　　正如前面在第1节中强调的那样，高效的时序建模对于理解视频中的长期时序关系至关重要，特别是对于复杂的动作合成。给定一组视频符号，有两个主要的时序信息建模方法:(1)1D时序卷积层[31]，关注相邻的token而忽略视频中直接的长期时序依赖关系;(2)Transformer[45]层，全局编码所有token的一对一交互，忽略局部语义，这已被证明有利于建模高度相关的视觉信号[20,23]。我们的时间编码器通过以交替方式探索局部和全局上下文信息，从两个部分中获益。

　　图4。我们的时序编码器的单个阶段包括(1)一个时序合并块和(2)×B Global-Local关系块。每个全局-局部关系块包含一个全局和一个局部关系块。其中Linear和TC分别表示核大小为1和k的一维卷积层。

　　如图3所示，时序编码器遵循有N个阶段的层次结构:早期阶段学习带有较多时序token的细粒度动作表示，而后期阶段学习带有较少时序token的粗粒度表示。每个阶段对应一个语义级别(即由一个时序合并块和×B个全局-局部关系块组成(见图4):

　　时间合并块是引入网络层次结构的关键组件，它可以减少token的数量(即时序分辨率)，同时增加特征维数。这个步骤可以被视为相邻token之间的加权池化操作。在实践中，我们使用单个时间卷积层(通常内核大小为k，步幅为2)将token数量减半，并将通道大小扩展×γ。在第1阶段，保持步长为1，以保持与I3D输出相同的token数量，并特征大小从D₀投影到D(见图3)。这只是一个简单的设计选择。

　　全局-局部关系块进一步分解为全局关系块和局部关系块(如图4所示)。全局关系块采用标准的多头自注意层[45]对长期动作依赖关系进行建模，即全局上下文关系。在Local关系块中，我们使用了一个时间卷积层(内核大小为k)，通过输入来自相邻token的上下文信息（即局部归纳偏差）来增强token表示。这增强了每个token在建模与一个动作实例对应的短期时间信息时的时间一致性。

　　在下面，我们制定了全局-局部关系块内的计算流。为了简洁起见，在这里，我们去掉了stage索引n。对于一个块j∈{1，...，B}，我们将输入token表示为X_j∈R^T'×D'。首先，token经过全局关系块中的多头注意层，它由H个注意力头组成。对于每个头i∈{1，...，H}，输入X_j投射到Q_ij=W_ij^QXj，K_ij=W_ij^KX_j和V_ij=W_ij^VXj，其中W_ij^Q，W_ij^K，W_ij^V∈R^D_h×D'代表线性层的权重，D_h=D'/H代表每个头的特征维度。因此，头i的自注意力被计算为

　　然后，将不同注意力头的输出与一个额外的线性层混合为

　　其中W_j^O∈R^D'×D'表示线性层的权值。多头注意力层的输出特征大小与输入特征大小相同。

　　然后，将多头注意力的输出token输入到由2个线性层和1个时间卷积层组成的局部关系块中;如图4所示，token首先经过线性层，将特征维度从D'增加到θD'，然后是核大小为k的时间卷积层，融合相邻的token，为时间token[24]提供局部位置信息。最后，另一个线性层将特征维数投影回D^'。该块中的两个线性层实现了多头注意力层和时间卷积层之间的转换。对于局部关系块，输出特征维数与输入特征相同。如果块j < B，则将此输出提供给下一个全局关系块。

　　每个阶段最后一个Global-Local关系块的输出token被组合并提供给下面的Temporal Scale Mixer。

3.3.时间尺度混合器

　　在获得了不同时间尺度的token后，如何将这些多尺度的token聚合起来，形成统一的视频表示?为了预测动作概率，分类模块需要以原始的时间长度作为网络输入进行预测。因此，我们需要在时间维度上插入token，这是通过执行上采样和线性投影步骤实现的。

　　图5。时间尺度混合器模块:将阶段n的输出tokens F_n调整大小并向上采样到T×D_v，然后与最后一个阶段N的token求和。

　　如图5所示，对于从阶段n∈{1，…， N}的输出F_n，该运算可表示为:

　　其中Wⁿ∈R^{D_v×γn−1D}，上采样率为n。在我们的层次结构中，早期阶段(低语义)具有较高的时间分辨率，而后期阶段(高语义)具有较低的时间分辨率。为了平衡分辨率和语义，最后一阶段N的上采样token经过线性层处理，并与每一阶段(N < N)上采样的token求和。

　　其中F_n^'是阶段n的refine tokens，⊕表示元素级加法，W_n∈R^D_v×D_^v。在这里，所有refine tokens表示都具有相同的时间长度。最后，我们将它们串联起来，得到最终的多尺度视频表示F_v∈R^T×ND_v。

　　注意，更复杂的融合方法[14,34]可以建立在这些多尺度token之上。但是，我们看到上面描述的简单版本性能最好。

　　多尺度视频表示F_v然后输入到分类模块进行预测。

3.4.分类模块

　　MS-TCT训练是通过联合学习两个分类任务来实现的。如第1节所述，在这项工作中，我们引入了一个新的分类分支来学习动作实例的热图。该热图与ground-truth标签不同，因为它基于动作中心和持续时间而随时间变化。使用这种热图表示的目的是在学习到的MS-TCT tokens中编码时间相对位置。

　　为了训练热图分支，首先需要构建class-wise ground-truth热图响应G^∗∈[0,1]^{T ×C}，其中C表示动作类的数量。在这项工作中，我们通过考虑一组一维高斯滤波器的最大响应构建了G^{^∗}。每个高斯滤波器对应于视频中的一个动作类实例，在时间上以特定的动作实例为中心。更精确地说，对于每个时间定位t，ground-truth热图响应的表达式为:

　　这里，高斯(·，·；σ)根据中心和实例持续时间提供了一个instance-specific的高斯激活。此外，σ等于每个实例持续时间的1/2，t_a,c表示类c和实例a的中心。A_c是视频中c类的实例总数。如图3所示，热图G的计算使用了一个核大小为k的时间卷积层和一个非线性激活，然后是另一个具有sigmoid激活的线性层。给定ground-truth G∗和预测的热图G，我们计算action focus loss[33,56]，公式为

　　其中A是一个视频中动作实例的总数。

　　与之前的工作[10,44]类似，我们利用另一个分支来执行常见的多标签分类。具有视频特征_v在该方法中，预测使用sigmoid激活的两个线性层进行计算，二进制交叉熵(BCE)损失[37]根据ground-truth标签计算。只有从这个分支预测的分数被用于评估。两个分支的输入都是相同的输出tokens F_v。热图分支鼓励模型将相对于实例中心的相对位置嵌入到视频token F_v中。因此，分类分支也可以受益于这些位置信息，从而做出更好的预测。

　　整体损失用上述两种损失的加权和表示，根据损失的数值大小选择权重α。

4.实验

　　数据集:我们在三个具有挑战性的多标签动作检测数据集上评估了我们的框架: Charades[42]，TSU[11]和MultiTHUMOS[52]。Charades[42]是一个包含9848个日常室内动作视频的大型数据集。该数据集包含157个动作类的66K+时序标注，不同类的动作实例之间存在较高的重叠。这与其他动作检测数据集，如ActivityNet[4]，形成对比，这些数据集中每个时间步只有一个动作。我们对数据集[41]的定位设置进行评估。与Charades类似，TSU[11]也是在室内环境下记录的，标注密集。在一个给定的帧中，最多可以同时发生5个动作。然而，与Charades不同，TSU有许多长期复合动作。MultiTHUMOS[52]是THUMOS14[25]的扩展版本，包含413个动作视频，65个类的密集、多标签动作标注。默认情况下，我们在这些密集标注的数据集上评估每帧mAP[41,52]。

　　实现细节:在提出的网络中，我们使用stage N = 4，每个阶段的全局-局部关系块B = 3。注意，对于像MultiTHUMOS这样的小数据集，B = 2就足够了。全局关系块的注意力头数设置为8。将与全局平均池化后的I3D相同的输出特征维数作为MS-TCT的输入，则D₀= 1024。在第一阶段，利用时序合并块将输入的特征投影成D = 256维的特征;假设特征扩展率γ = 1.5， θ = 8。设置时间卷积层的内核大小k为3，零填充以保持分辨率。损失平衡因子α = 0.05。token的数量固定为T = 256，作为MS-TCT的输入。在训练过程中，我们从给定的I3D特征表示中随机抽样连续的Ttoken。在推断时，我们遵循[44]使用滑动窗口方法进行预测。我们的模型在两个batch-size大小为32的GTX 1080Ti gpu上进行了训练。我们使用Adam优化器[30]，初始学习率为0.0001，以8 epoch的patience按0.5倍比例缩放。

4.1.消融实验

　　在本节中，我们研究了所提出的网络中每个组件在Charades数据集上的有效性。

　　MS-TCT中各组成部分的重要性:如表1所示，仅带有分类分支的I3D特征被视为代表性基线。该基线由一个分类器组成，该分类器在每个时间判别I3D特征，而无需进一步的时序建模。除此之外，I3D特征基线添加我们的时序编码器显著提高了性能(+ 7.0%)。这种改进反映了时间编码器在建模视频中的时间关系的有效性。另外，如果引入时序尺度混合器对不同时序尺度的特征进行融合，在计算量增加最小的情况下，性能提高了+ 0.5%。最后，我们研究了我们的热图分支在分类模块中的应用。我们发现，当热图分支与分类分支一起优化时是有效的，但当没有分类分支优化时，热图分支无法学习判别表示(25.4% vs 10.7%)。热图分支鼓励token预测动作中心，同时将token淡化到动作边界。相比之下，分类分支平等地改进了所有token的表示，而不考虑动作边界。因此，当一起优化时，这两个分支使模型能够学习更好的动作表示。在拥有所有组件的情况下，所提出的网络相对于I3D特征基线的性能提升了 9.8%，验证了MS- TCT中的每个组件对于动作检测任务都是有帮助的。

　　表1。MS-TCT的消融:基于Charades数据集的每帧图像进行评估。

　　表2。在Charades数据集上使用每帧图进行评估，消融我们的时序编码器的单个阶段的设计。

　　一个阶段的设计选择:在表2中，我们给出了与时间编码器中一个阶段的设计选择相关的消融。表2中的每一行表示在每个阶段删除一个组件的结果。请注意，删除Temporal Merge块表明将该块替换为stride 1的时间卷积层，即只有通道维度是跨stage修改。在表2中，我们发现删除任何组件都会显著降低性能。这一观察结果表明，在我们的方法中，联合建模全局和局部关系的重要性，以及多尺度结构的有效性。MS-TCT的这些特性使得学习跨越(1)相邻片段和(2)远端片段的复杂时序关系变得更加容易。

　　局部关系块的分析:我们也在每个阶段更深入地挖掘局部关系块。如图4所示，Local Relational Block中有两个线性层和一个时间卷积层。在表3中，我们进一步执行这些组件的消融。首先，我们发现没有时间卷积层，检测性能下降。这个观察结果显示了将transformer token与时序局部性混合使用的重要性。其次，我们研究了过渡层(即线性层)的重要性，在特征尺寸不变的情况下，增加过渡层可以使系统性能提高1.8%，充分说明了过渡层的重要性。最后，我们研究了扩展速率对网络性能的影响。在设置不同的特征扩展速率时，我们发现当输入特征在高维空间时，时间卷积可以更好地建模局部的时间关系。

　　表3。局部关系块的设计:只使用RGB输入的Charades每帧mAP。×表示我们去除线性或时序卷积层。特征扩展速率1表示特征大小在局部关系块中没有变化。

　　表4。在三个密集标注的数据集上与最先进的方法进行比较。Backbone表示视觉编码器。注意，这些方法的评估是基于仅使用RGB视频的每帧mAP(%)。

4.2.与最先进技术的比较

　　在本节中，我们将MS-TCT与最先进的动作检测方法进行比较(见表4)。基于提议的方法，如R-C3D[50]，在多标签数据集上由于动作实例的高度重叠而失败，这对提议和基于nms的方法提出了挑战。Su- perevent[38]基于一系列可学习的时序滤波器，在每个局部特征上叠加一个全局表示。然而，动作的分布在不同的视频中有所不同。由于super-event为训练分布中的所有视频学习一个固定的过滤器定位，因此该定位主要适用于高频动作。TGM[39]和PDAN[10]是基于视频片段时间卷积的方法。然而，这些方法只能在单一时间尺度上处理局部视频。因此，它们不能有效地对长期依赖项和高级语义进行建模。粗-细网络[27]在Charades上的性能达到25.1%。但是，这种方法是建立在视频编码器X3D[18]之上的，这就防止了使用更多的输入帧。此外，它依赖于在帧间使用较大的stride。因此，它无法建模细粒度的动作关系，也不能处理MultiTHUMOS和TSU中的长视频。MLAD[44]联合建模了每个时间步长的动作类关系和每个类的时间关系。这种设计导致了巨大的计算成本，而在具有大量动作类（例如“Charades”）的数据集上表现不佳。由于在多尺度层次结构中结合了transformer和卷积，所提出的MS-TCT在我们所考虑的所有三个具有挑战性的多标签动作检测数据集上始终优于以前的最先进的方法。我们还比较了建立在相同的视觉编码器(即I3D特征)之上的方法的计算需求(FLOPs)，以同一批数据作为输入。我们观察到MS-TCT的FLOPs比纯卷积方法(即PDAN、TGM、super-event)更高，但处于合理的区间。然而，与基于transformer的动作检测方法MLAD相比，MS-TCT只使用了17个flop。

　　图6。检测结果在样本视频上沿时间轴的可视化。在此图中，我们可视化了PDAN和MS-TCT的基本情况和检测。

　　我们还使用表5中[44]在字符串数据集上引入的动作条件度量来评估我们的网络。这些度量标准用于度量方法对动作类的共现依赖和时间依赖进行建模的能力。虽然我们的网络不是像MLAD那样专门设计来建模跨类关系，但它仍然在所有操作条件指标上取得更高的性能，表明MSTCT有效地在一个时间步长（即共发生动作，τ=0）和整个时间维度（τ>0）内建模动作依赖关系

　　最后，我们对图6中的字谜数据集对PDAN和MS-TCT进行了定性评价。由于粗细网络的预测类似于X3D网络，限制在几十帧，因此我们无法在整个视频上与粗细网络进行比较。在这里，我们观察到MS-TCT可以比PDAN更精确地预测动作实例。这种比较反映了transformer架构和多尺度时间建模的有效性。

4.3.讨论和分析

　　Transformer，卷积还是ConvTransformer? 为了验证我们的ConvTransformer的有效性，我们与纯transformer网络和纯卷积网络进行比较。每个网络具有与MS-TCT相同的阶段数，具有相似的设置(如块、特征维度)。在纯transformer中，池化层和线性层构成时间合并块，每一阶段有B个transformer块。transformer模块由多头注意力层、加范运算层和前馈层组成。将学习到的位置嵌入添加到输入token中，对位置信息进行编码。这种纯transformer结构在Charades上的性能达到22.3%。在纯基于卷积的模型中，我们保留了MS-TCT中相同的时间合并块，然后是B时间卷积块的堆栈。每个块由一个核大小为k的时间卷积层、一个线性层、一个非线性激活和一个剩余链接组成。这种纯时序卷积结构在Charades上的性能达到21.4%。相比之下，提出的ConvTransformer比纯transformer和纯卷积网络都有较大的性能提升(Charades上分别为+ 3.1%和+ 4.0%)。由表6可知，ConvTransformer可以更好地建模复杂动作的时序关系。

　　表5所示。在Charades数据集上使用动作条件度量[44]进行评估:与MLAD类似，同时使用RGB和光流进行评估。P_AC动作条件精度，R_AC-动作条件召回，F1_ACAction-Conditional F1-Score, mAP_AC-动作条件平均平均精度。τ表示时间窗口大小。

　　表6.阶段类型研究显示卷积和自注意力的效果。表7.σ研究显示高斯尺度在热图中的影响。

　　热图分析:我们将ground-truth热图(∗)和图7中相应的预测热图(G)可视化。实验发现，MS-TCT通过热图分支预测动作实例的中心定位，从而将与中心相关的信息嵌入到token中。然而，当我们优化焦损失以突出中心时，这个热图中动作实例的边界就不那么明显了。然后研究σ对绩效的影响。如表7所示，当G^∗设定不同的σ时，我们设σ为实例持续时间的1/8，1/4，1/2生成ground-truth热图G^∗。MS-TCT比不添加热图分支的MS-TCT分别提高0.5%、0.7%、1.3%。结果表明，较大的σ能较好地提供中心相对位置。通过在另一个动作检测模型PDAN[10]中增加一个热图分支进行了进一步的研究。虽然热图分支也改善了PDAN(+ 0.4%)，但相对改善程度低于MS- TCT(+ 1.3%)。我们的方法特征是多级层次结构和TS混合器。由于热图分支从所有阶段获取输入，中心相对位置即使在早期阶段也被嵌入。这些包含相对位置信息的token在接下来的阶段被输入，有利于多头注意力更好地建模token之间的时间关系。与PDAN相比，这种设计使MS-TCT更好地利用了热图分支。

　　图7。沿时间轴的热图可视化:在顶部，我们展示了ground-truth热图(G^∗)的样本视频。下图为MS-TCT学习到的相应热图(G)。由于热图是由高斯函数生成的，较浅的区域表示更接近实例的中心。

　　时间位置嵌入:我们进一步研究MS-TCT的时间编码器是否受益于位置嵌入。我们发现，在时序编码器处理输入token之前，在输入token中添加可学习的位置嵌入[17]时，Charades的性能下降了0.2%。这表明当前设计可以隐式地为token提供时间定位。在token中添加进一步的位置信息会使其变得多余，从而导致较低的检测性能。

5.结论

　　在这项工作中，我们提出了一种新的transformer网络工作:MS-TCT动作检测。它利用卷积和自注意力分别在多个时间尺度上建模局部和全局时间关系。此外，我们引入了一个新的分支来学习动作实例中心的class-wise相对位置。MS-TCT在3个具有挑战性的密集标注动作检测基准上进行了测试，取得了最新的结果。

posted @ 2022-09-02 20:20 Lhiker 阅读(691) 评论(0) 编辑收藏举报

刷新页面返回顶部

自由方向