Temporal Feature Enhancement Dilated Convolution Network for Weakly-Supervised Temporal Action Localization
摘要
弱监督时间动作定位(WTAL)的目的是对只有视频级别标签的未修剪视频中的动作实例进行分类和定位。现有方法通常直接使用从预训练的提取器中提取到的片段级RGB和光流特征。由于片段的时间跨度短和初始特征不合适这两个方面的限制,这些WTAL方法缺乏对时间信息的有效利用,性能有限。在本文中,我们提出了时间特征增强膨胀卷积网络(TFE-DCN)来解决这两个局限性。提出的TFE-DCN具有扩大的接受域,覆盖了较长的时间跨度来观察动作实例的完整动态,这使得它能够强大地捕获片段之间的时间依赖性。此外,我们还提出了模态增强模块,该模块可以通过增强光流特征来增强RGB特征,使整体特征适合WTAL任务。在THUMOS ' 14和ActivityNet v1.3数据集上进行的实验表明,我们提出的方法远远优于最先进的WTAL方法。
1.介绍
时间动作定位(TAL)是视频理解的主要任务之一,其目的是定位未修剪视频中动作实例的开始和结束时间戳并对其进行分类。它已被用于各种视频理解应用,如智能监控分析[34]和视频检索[9]。许多研究[32,20,42,2,24,39]致力于全监督时间动作定位,并取得了很好的定位效果。然而,全监督方法需要大量的细粒度帧级标注,这些标注需要人工标记,并且具有注释者的标注偏见。为了解决这个问题,弱监督时间动作定位(temporal action localization, WTAL)技术近年来得到了广泛的注意[36,28,21,16,40,41,8],它只需要容易收集的视频级别的分类标签。
图1所示。先前方法(BaS-Net[16])的结果具有不准确的动作边界和假阳性检测。
虽然WTAL简化了数据收集过程,但仅使用视频级标注进行时间动作定位是具有挑战性的,特别是对于复杂的动作场景。为了解决这个问题,许多WTAL方法采用了多示例学习(MIL)框架[36,28,31,33,21,29,16]。这些方法将视频统一采样到片段中,然后生成时间类激活序列(TCAS),这是每个片段的动作类的分类概率序列。最后,采用top-k均值策略对TCAS进行聚合,得到最终的视频级预测结果。
虽然之前的方法在WTAL上取得了显著的提升,但性能仍然有限。一个主要问题是对动作边界的不准确预测。图1展示了一些错误的例子。虽然仅使用视频级标注获得准确的动作边界具有挑战性,但我们认为时间信息的使用不足是结果有限的关键原因。一个完整的动作实例通常涵盖一个相对较长的时间跨度,而一个片段不能够观察到该动作实例的完整动态。另一个原因是,大多数WTAL方法直接使用预训练模型提取的RGB和光流特征,例如I3D[1],这些模型是为裁修剪视频动作分类而定制和训练的,而不是WTAL。因此,利用时间信息增强特征是解决这一问题的可行方法。
本文提出时间特征增强膨胀卷积网络(TFE-DCN)来解决上述两个限制。受时序卷积网络(TCN)在全监督时间动作定位([4])上成功应用的启发,我们设计了一种新的时间特征增强扩展卷积模块(TFE-DC)。首先,它扩大了感受野,使模型能够获得完整动作实例的时间信息,消除了片段时间跨度短导致的时间信息不连贯。其次,它可以捕获感受野中片段之间的时间依赖性,使片段能够利用整个感受野中其他片段的运动线索来增强其特征表示,这对于增强特征和从背景中分离动作实例非常有用。
虽然TFE-DC模块提取了时间信息,增强了光流特征,但值得注意的是,初始RGB特征没有增强。两种模态之间的不一致导致性能下降。因此,我们提出了模态增强模块,可以通过增强光流特征来增强RGB特征。该模块将初始RGB特征和光流增强特征分别送入共享卷积层,得到两个注意力序列。然后对这两个注意力序列和初始RGB特征进行逐元乘法,得到增强的RGB特征。模态增强模块保持两模态的一致性,并引入改进的光流特征来增强RGB特征。
我们的主要贡献可以概括为三方面:
•我们表明TFE-DCN可以有效地利用时间特征,并准确预测动作边界。所提出的TFE-DC模块具有新颖的膨胀结构,反映了不同感受野尺度的时间信息对最终注意力权重的影响,而不是遵循MS-TCN[4]的常见膨胀残差层。
•我们提出了一个模态增强模块,该模块保持两模态之间的一致性,并借助增强的光流特征重新校准初始RGB特征,使其更适合WTAL任务。
•在THUMOS'14和ActivityNet v1.3上进行了广泛的实验来证明我们提出的方法的有效性。所提出的TFE-DCN优于所有最先进的WTAL方法。
2.相关工作
时序卷积网络。时序卷积网络成功应用于语音合成[35],并被一些作品引入到时间动作定位中[14,18,4]。Lea等人提出了一种用于动作分割和检测的编码器-解码器框架。TDRN[18]使用残差流在全时间分辨率下分析视频信息。MS-TCN[4]采用扩展卷积残差层代替时间池化捕获远程依赖关系,取得了较好的效果。
全监督的时间动作定位。完全监督的TAL需要动作实例的帧级标注。大多数方法[3,32,42,20]生成时间动作建议,然后基于这些建议进行分类。CDC[32]同时执行时间上采样和空间下采样来预测帧级动作建议。BSN[20]以高概率定位时间边界,然后将这些边界组合成建议框。P-GCN[39]使用图卷积网络来挖掘提案之间的关系。
弱监督的时间动作定位。虽然有些方法[26,15]使用点级标注,但WTAL通常只需要视频级标注,大大减少了标注工作量。un修剪- Nets[36]正式提出了WTAL任务,并尝试用多实例学习(MIL)方法来解决它。稀疏时间池化网络(STPN)[28]引入了一种具有稀疏性约束的注意力机制。W-TALC[31]设计了一个co-activity相似度损失,并使用深度度量学习训练网络。然而,这些早期的作品并不能有效地区分动作实例和背景,也不能定位完整的动作。为了解决这个问题,许多研究[21,29,16,12,17,41,27]改进了注意力机制,抑制背景的激活分数,突出动作的激活分数。BaS-Net[16]引入了背景的辅助类,并使用过滤模块来抑制背景的激活。Liu等人[21]开发了一个并行的多分支分类框架来模拟完整的动作。net b[12]使用混合注意力机制定位完整的动作实例。CoLA[41]利用片段对比学习来改进定位结果。
最近,CO2-Net[8]和ACGNet[38]都专注于增强WTAL的特征。CO2-Net使用跨模态共识模块来减少与任务无关的信息冗余,并使特征适合WTAL。ACGNet使用图卷积网络来增强动作表示的可判别性,基于增强特征对硬样本进行分类更容易。我们的方法在两个主要方面区别于CO2-Net和ACGNet。(1) TFE-DCN可以有效地利用时间信息增强时间特征,然后利用增强的时间特征增强RGB特征。而CO2-Net并不强调时间信息,而是平等地对待两种模态特征。(2) TFE-DCN采用多层扩展卷积捕获片段之间的时间依赖性。而ACGNet使用时间扩散图来获得跨片段的时间依赖性。我们的模型在实验中取得了更好的性能。
图2。提出的时序特征增强扩展卷积网络(TFE-DCN)概述,该网络由四部分组成:(1)预训练的特征提取器输出RGB特征XnRGB 和光流特征XnFlow;(2)时序特征增强扩展卷积模块(TFE-DC模块),生成增强光流特征XnF low∗和时序注意力权值AnFlow;(3)模态增强模块,生成增强的RGB特征XnRGB∗和空间注意力权值AnRGB;(4)分类器和元素级乘法生成时序类激活序列(TCAS)Sn和被抑制的TCAS 。
3.方法
在本节中,我们首先提出了弱监督时间动作定位(WTAL)的问题表述,然后描述了我们提出的TFE-DCN的结构概述。整体架构如图2所示。两个模块的细节在3.3节和3.4节中展示。最后,我们说明了损失函数和动作定位。
3.1.问题公式化
假设给定一组N个未经修剪的视频{vn}Nn=1,视频级别的分类标签{yn}Nn=1,其中yn∈RC为归一化multi-hot向量,C为动作类别的个数。WTAL的目标是为每个视频生成所有动作实例的分类和时间定位结果作为动作提案(ts,te,c,φ),其中ts, te, c和φ分别表示开始时间,结束时间,预测的动作类别和动作提案的置信度得分。
3.2.方法概述
3.2.1特征提取器
按照通常的做法[28,16],我们首先将每个视频vn分成16帧无重叠的片段,并采样固定数量的T个片段来表示视频。利用预训练的特征提取器I3D[1]分别从采样的RGB片段和光流片段中提取RGB特征XnRGB= {Xn,iRGB}Ti=1和光流特征XnFlow= {Xn,iFlow}Ti=1。Xn,iRGB,Xn,iFlow∈RD为第i个RGB片段和光流片段的特征,D为特征维数。
3.2.2结构概述
所提出的TFE-DCN的整体框架如图2所示。该框架的关键部分是时间特征增强膨胀卷积模块(TFE-DC模块)和模态增强模块。TFE-DC模块旨在有效利用时间信息,增强光流特征。该模块的输入为光流特征XnFlow,输出为增强光流特征XnFlow∗和时间注意力权值AnFlow∈RT。模态增强模块旨在借助 增强的光流特征XnFlow*来增强RGB特征XnRGB。输入为XnRGB和XnFlow*,输出为增强RGB特征XnRGB∗和空间注意力权值AnRGB∈RT。则XnRGB∗和XnFlow*拼接得到Xn∗∈R2D×T。
给定连接的特征Xn∗,我们应用一个分类器来获得TCAS Sn。
其中fcls是分类器,Sn∈R(C+1)×T具有C+1维度,因为我们遵循BaS-Net[16]并为背景设置了一个辅助类。然后,我们使用时间注意力权值AnFlow来抑制Sn中背景的激活,得到被抑制的TCAS :
其中⊗表示在时间维度上的逐元素乘法。
图3。所提出的时间特征增强膨胀卷积模块(TFE-DC模块)概述。该模块包含一个K层膨胀卷积网络(在此图中K = 3),以扩大感受野并捕获不同时间尺度片段之间的依赖关系。它也有一个注意力权重生成机制,平均从每一层的输出获得的注意力权重。这使得最终的注意力权重AnFlow可以覆盖不同大小的感受野的时间信息。
3.3.时间特征增强膨胀卷积模块
在这项工作中,我们利用TFE-DC模块有效地利用时间信息,增强光流特征,使其更适合WTAL任务。多层扩展卷积网络可以扩大感受野,捕获片段之间的远程依赖关系。这些属性有利于模型充分学习时间特征。此外,一个完整的动作实例通常跨越一个相对较长的时间窗口,而光流片段仅覆盖16帧,不足以观察到完整的动作实例。TFE-DC模块可以扩大感受野,覆盖完整动作实例的时间跨度,观察动作的完整动态,是充分利用时间信息的体现。
如图3所示,该模块主要由K层扩展卷积网络和注意力权值生成机制组成。在k层膨胀卷积中,我们将光流特征XnFlow∈RD×T馈送到第一层fdilated,1,膨胀值为1。然后输出经过ReLU层,得到中间结果Mn,1。对于第k层fdilated,k,过程表述如下:
其中Mn,k∈RD×T为第k个膨胀卷积层的输出,2k−1为膨胀值。对于第k层,感受野扩展到2k + 1个片段。最后,我们对Mn,k应用sigmoid函数,利用输出增强光流特征,得到增强的光流特征XnFlow*如下:
其中Mn,K为k层扩展卷积网络的最终输出,σ为sigmoid函数,⊗表示元素级乘法。
对于注意力权重的生成,我们在每个Mn,k上应用sigmoid函数和元素级乘法,使用过滤模块fatt,k来生成注意力权重An,kFlow∈RT。过滤模块 由三个时间1D卷积层组成,后面是一个sigmoid函数。时间注意权重AnFlow是{An,kFlow}Kk=1的加权平均值。过程表述如下:
其中ak > 0,k = 1,…,K是权重,ak = 1。
3.4.模态增强模块
在获得增强光流特征XnFlow*和时间注意力权值AnFlow后,下一步是增强RGB特征XnRGB,受跨模态共识模块[8]的启发,我们提出了模态增强模块,通过增强光流特征来增强RGB特征。主要的区别是我们使用了共享卷积层,使两种模态的权重分布更加接近。这一步骤确实提高了性能,并且不同于现有的通道注意力方法。
图4。所提出的模态增强模块概述。该模块旨在借助增强的光流特征XnRGB来增强RGB特征xnFlow∗,共享的卷积层有利于使两种模态的权重分布接近。增强的RGB特征XnRGB∗ 被输入过滤模块以获得空间注意力权重AnRGB
如图4所示,我们将RGB特征XnRGB和增强光流特征XnFlow*输入到共享卷积层中,然后对卷积层的输出应用sigmoid函数得到两个权重。然后,我们使用这两个权重来增强初始RGB特征。过程表述如下:
其中XnRGB*为增强的RGB特征,fconv为共享卷积层,σ为sigmoid函数,⊗为逐元乘法。
得到XnRGB∗后,将其输入过滤模块,得到空间注意力权值AnRGB:
其中为fatt为过滤模块,由三个时间1D卷积层和其后的sigmoid函数组成。值得注意的是,我们没有使用AnRGB来抑制背景片段(如图2所示)。
3.5.损失函数
为了优化我们提出的TFE-DCN框架,我们首先应用BaS-Net[16]的损失函数,其表示为:
其中Lbase和Lsupp分别为TCAS Sn和被抑制的TCAS 的top-k多实例学习损失,λ1为超参数。 使注意力权值稀疏的归一化损失Lnorm为:
其中,∥·∥1 为l1范数函数。
为了优化时间注意力权重AnFlow 和空间注意力权重AnRGB,我们应用了Lguide[12]来指导背景类的激活,也就是TCAS Sn的最后一列,与注意力权重AnFlow和AnRGB相反:
其中AnFlow(t)、AnRGB(t)和SC+1(t)分别是AnFlow、AnRGB第t个元素和背景类激活。我们还应用互学习损失Lml[8]将AnFlow和AnRGB设置为彼此的伪标签,在两模态之间进行互学习。
通过聚合上述所有目标函数,我们在最终目标函数上训练我们提出的TFE-DCN:
其中λ1、λ2 和λ3 都是超参数。在实验中,我们默认设置λ1= 1、λ2= 1和λ3= 0.8。
3.6.动作定位
按照BaS-Net[16]的方法,我们首先在TCAS Sn 上使用top-k策略获取top-k分数并计算视频级分类概率。然后我们用θa对激活分数进行阈值化,以预测视频中的动作类别。时间注意力权重AnFlow被用来丢弃背景片段,剩余片段的连续片段成为候选行动建议,即(ts, te, c, φ)。然后,我们使用被抑制的TCAS 通过外-内对比方法[33]计算每个提议的置信度分数φ。最后,使用非最大抑制(NMS)方法去除重叠候选框。
4.实验
4.1.实验设置
数据集。我们在两个流行的WTAL基准上进行了实验:THUMOS’14[13]和ActivityNet v1.3[7]。THUMOS’14是WTAL任务中广泛使用的基准。它包含了20个运动类别的200个验证视频和213个测试视频。在之前的工作[40,16,38]之后,我们使用200个验证视频来训练我们的框架,并使用213个测试视频进行评估。
ActivityNet v1.3有来自200个动作类别的10024个训练视频,4926个验证视频和5044个测试视频。由于测试集的注释没有发布,我们在训练集上进行训练,在验证集上进行测试。
评价指标。遵循标准的评价指标,我们在不同的交并比(IoU)阈值下用平均精度均值(mAP)来评估我们的方法。我们采用ActivityNet提供的官方评估代码在两个数据集上评估我们的方法。
表1。将我们的方法与最先进的全监督和弱监督TAL方法在THUMOS的14个测试集上进行比较。UNT和I3D分别是UntrimmedNet特征和I3D特征的缩写。AVG是多个IoU阈值下的平均mAP,即0.1:0.1:0.5和0.1:0.1:0.7。
实现细节。我们提出的TFE-DCN在PyTorch[30]中实现。我们使用在Kinetics[1]上预训练的I3D网络[1]来提取RGB和光流特征。提取器没有被微调以进行公平的比较。视频片段每16帧采样一次,每个片段的特征维数为1024。在训练过程中,我们将THU- MOS ' 14的采样数T设置为320,ActivityNet v1.3的采样数T设置为75。所有生成注意力权重的过滤模块都由三个时序1D卷积层组成,其次是sigmoid函数。分类器由两个时序1D卷积层组成。对于TFE-DC模块,我们设置了膨胀convo-的数量
4.2.与最先进方法的比较
在表1中,我们将我们的TFE-DCN与最先进的WTAL方法和THUMOS’14上的几个全监督方法进行了比较。我们观察到,我们的方法在所有IoU阈值上都远远超过了之前的所有WTAL方法。特别是在关键标准AVG 0.1:0.5上,我们的方法比目前最先进的方法[11]高出1.9%。与全监督方法相比,TFE-DCN优于SSN[42]和TAL-Net[2],并在低IoU阈值下取得了与GTAN[24]和P-GCN[39]相当的结果。实验结果表明,所提方法具有优越的性能。
我们还在ActivityNet v1.3上进行了实验,对比结果如表2所示。我们的方法优于所有最先进的WTAL方法,并在activitynet v1.3上取得了25.3%平均mAP的性能。
4.3.消融研究与分析
在这项工作中,我们提出了一个TFE-DC模块,它可以扩大感受野并捕获片段之间的时间依赖性,以及一个模态增强模块,可以借助增强的光流特征重新校准初始RGB特征。此外,最终的目标函数由几个组件组成。因此,我们首先验证每个组件的有效性。然后我们分析了TFE-DCN中每个模块的功效。所有消融研究均在THUMOS ' 14测试装置上进行。
对最终目标函数的消融研究。在表3中,我们进行了一项消融研究,以研究每个组成部分在最终目标函数中的贡献(公式12)。我们没有对Lbase和Lsupp进行测试,因为它们是框架的基本目标函数,不应该被移除。我们观察到Lnorm、Lguide和Lml all对最终性能有贡献。其中,lguide norm极大地提高了性能,因为它鼓励背景类激活与注意力权重AFnlow和ARGBn相反,因此改善了动作背景分离[12]。
表2。我们的方法与最先进的WTAL方法在ActivityNet v1.3验证集上的比较。AVG是在IoU阈值0.5:0.05:0.95处的平均mAP。
表3。最终损失函数不同分量在THUMOS’14测试集上的消融研究。AVG是IoU阈值0.1:0.1:0.7处的平均图。
TFE-DC组件的消融研究。TFE-DC模块是为了生成增强的光流特征和时间注意力权重。它的关键组件是k层膨胀卷积网络,它扩大了感受野并捕获了片段之间的时间依赖关系。但是,如果感受野过大,可能会覆盖太多不相关的背景片段,导致性能下降。为了验证不同膨胀卷积层数量的TFE-DC模块的有效性,我们进行了相关的消融研究。
表4列出了不同膨胀卷积层数的模型之间的详细性能对比。这里K = 0表示模块输出初始值
表4。在THUMOS’14测试集上对我们具有不同数量膨胀卷积层K的模型进行消融研究。
光流特征不做任何增强,直接将初始特征输入过滤模块,得到时序注意力权值。结果表明,性能随着膨胀卷积层数的增加先增加后降低。当K = 3时,达到了最好的平均性能。这是因为当K = 3时,感受野覆盖9个片段。由于每个片段包含16帧,并且样本的帧率为25,因此接受场在5.76秒内9×16 覆盖时间信息25
THU- MOS’14测试集中所有动作实例的平均持续时间约为4.49秒。当K小于3时,感受野不能完全覆盖大多数动作实例的时间跨度。如果K大于3,感受野可能会覆盖太多的背景片段,从而降低动作实例片段的影响。这种在覆盖完整动作实例的同时减少背景片段的权衡使得K = 3成为最优值。表4中呈现的变化趋势证明了我们的TFE-DC模块的有效性。
模态增强模块的消融研究。在我们提出的模态增强模块中,RGB特征通过增强光流特征得到增强。如图4所示,我们利用初始RGB特征XnRGB and增强光流特征nF low∗ x上的共享卷积层来生成两个权重。然后我们用这两个权重通过元素乘法增强初始RGB特征nRGB x。为了验证我们的模态增强模块的有效性,我们评估了不同类型的模态组合。
表5列出了不同种类模态组合的模型之间的性能比较。从上到下,“Original RGB”表示模块直接输出初始RGB特征xnRGB 0,没有任何增强。“RGB Only”意味着模块使用RGB自注意力权值来增强RGB特征,即XnRGB∗ = σ(fconv(XnRGB))⊗XnRGB。“Flow Only”是指模块只使用增强光流来增强RGB特征,即XnRGB∗= σ(fconv(XnF low∗))⊗XnRGB。“不共享”意味着我们在XnF low∗上使用卷积层fconv1 onXnRGB和fconv2,并且这两个卷积层不共享参数。最后一行的“交换模态”意味着我们交换显示的XnRGB和XnF low
图5。THUMOS’14的两个典型视频示例的定性可视化。BaS-Net(基线)、我们的方法和ground truth (GT)的结果分别显示为蓝色、红色和绿色。由于我们在TCAS中为背景引入了一个辅助类,因此如果此片段的背景类在所有类中获得最高的激活分数,则我们将激活分数设置为0。
表5所示。在THUMOS’14测试集上对我们的模型进行不同种类模态组合的消融研究。AVG是IoU阈值0.1:0.1:0.7处的平均图。
在图2中,同时保持其他设置与“共享Conv”相同。
我们可以发现低XnF*确实增强了RGB特征,将平均mAP(0.1:0.7)从44.1%(“原始RGB”)提高到45.9%(“仅流”)。这是因为最初的RGB特征包含与任务无关的信息,这些信息会影响性能,而nF low∗ x可以帮助过滤掉与任务无关的信息。但仅使用xnF low∗ 来坐标x可能nRGB 会丢失空间信息。因此,使用这两种方式来增强RGB特征可以达到最佳效果。当涉及到“共享Conv”和“不共享”的性能差异时,是因为两种模态之间的不一致会造成性能的退化,而共享卷积层有利于使两种模态的权重分布更加接近。“交换模态”导致的性能下降表明,时间建模(TFE-DC模块)应该应用于光流特征而不是RGB特征。根据以上分析,我们提出的模态增强模块对于增强RGB特征是合理的。
4.4.定性结果
为了说明我们所提出方法的有效性,我们在图5中展示了两个典型视频样本的检测结果。这两个样本具有代表性,因为第一个样本包含“CricketBowling”和“CricketShot”类别,这两个类别的每个动作实例都非常短(约0.6秒)。而第二个样本包含“HighJump”类别,该类的每个动作实例相对较长(约6.1秒)。使用BaSNet作为基线,因为我们的模型遵循其背景抑制结构,并在优化过程中使用其损失函数作为基本损失函数。可以观察到,我们的方法比基线有更准确的定位建议,表明我们的方法有效地利用了时间信息。例如,在第二个样本中,基线方法错误地将几个动作实例组合为一个实例。而我们的方法可以非常清晰地定位每个动作实例。同时,背景片段的激活分数很低,表明我们的方法可以成功地抑制背景片段的激活分数,并将动作实例从背景中分离出来。这两个典型样本充分展示了所提方法的优越性。
5.结论
在本文中,我们探讨了如何有效地利用时间信息和增强特征来改善时间动作定位结果。我们提出了一种名为TFE-DCN的新型WTAL框架来解决这个问题。我们使用TFE-DC模块来扩大接收场并捕获片段之间的远程依赖关系,以增强光流特征。我们还提出了一个模态增强模块,通过增强光流特征来增强RGB特征。在两个数据集上的实验表明,我们的TFE-DCN优于目前最先进的方法,并验证了我们的想法,即有效利用时间信息可以显着提高时间动作定位的性能。