哪有什么岁月静好,不过是有人替你负重前行!

Temporal Feature Enhancement Dilated Convolution Network for Weakly-Supervised Temporal Action Localization概述

0.前言

  • 相关资料:

  • 论文基本信息:

    • 领域:弱监督时序动作定位

    • 发表时间:WACV 2023(2023.2.6)

1.针对的问题

  现有方法通常直接使用从预训练的提取器中提取到的片段级RGB和光流特征。由于片段的时间跨度短和初始特征不合适这两个方面的限制,这些WTAL方法缺乏对时间信息的有效利用,性能有限。本文提出的TFE-DCN具有扩大的感受野,覆盖了较长的时间跨度来观察动作实例的完整动态,这使得它能够强大地捕获片段之间的时间依赖性。此外,还提出了模态增强模块,该模块可以通过增强光流特征来增强RGB特征,使整体特征适合WTAL任务。

2.主要贡献

  •TFE-DCN可以有效地利用时间特征,并准确预测动作边界。所提出的TFE-DC模块具有新颖的膨胀结构,反映了不同感受野尺度的时间信息对最终注意力权重的影响。

  •提出了一个模态增强模块,该模块保持两模态之间的一致性,并借助增强的光流特征重新校准初始RGB特征,使其更适合WTAL任务。

  •在THUMOS'14和ActivityNet v1.3上进行了广泛的实验来证明提出的方法的有效性。TFE-DCN优于所有最先进的WTAL方法。

3.方法

  模型结构如下:

  该框架的关键部分是时间特征增强膨胀卷积模块(TFE-DC模块)和模态增强模块。TFE-DC模块旨在有效利用时间信息,增强光流特征。该模块的输入为光流特征XnFlow,输出为增强光流特征XnFlow和时间注意力权值AnFlow∈RT。模态增强模块旨在借助增强的光流特征XnFlow*来增强RGB特征XnRGB。输入为XnRGB和XnFlow*,输出为增强RGB特征XnRGB和空间注意力权值AnRGB∈RT。则XnRGB和XnFlow*拼接得到Xn∈R2D×T。Xn输入分类器得到时序类激活序列TCAS Sn,使用时间注意力权值AnFlow来抑制Sn中背景的激活,得到被抑制的TCAS 

  TFE-DC模块有效地利用时间信息,增强光流特征,使其更适合WTAL任务,结构如下:

  该模块包含一个K层膨胀卷积网络(在此图中K = 3),以扩大感受野并捕获不同时间尺度片段之间的依赖关系。ReLU的输出经过sigmoid函数再与光流特征相乘得到增强的光流特征XnFlow*,XnFlow*输入过滤器,也就是三层1D卷积层,再输入sigmoid函数得到注意力权重An,kFlow∈RT,将每一层输出的An,kFlow加权平均得到时间注意权重AnFlow

  模态增强模块通过增强光流特征来增强RGB特征,主要的区别是使用了共享卷积层,使两种模态的权重分布更加接近,结构如下:

  将RGB特征XnRGB和增强光流特征XnFlow*输入到共享卷积层中,然后对卷积层的输出应用sigmoid函数得到两个权重,XnRGB与这两个权重相乘得到增强的RGB特征XnRGB*,将其输入过滤模块(由三个时间1D卷积层和其后的sigmoid函数组成),得到空间注意力权值AnRGB

posted @ 2023-05-11 19:40  Lhiker  阅读(67)  评论(0编辑  收藏  举报