Temporal Feature Enhancement Dilated Convolution Network for Weakly-Supervised Temporal Action Localization概述

0.前言

相关资料：
论文基本信息：

领域：弱监督时序动作定位
发表时间：WACV 2023(2023.2.6)

1.针对的问题

　　现有方法通常直接使用从预训练的提取器中提取到的片段级RGB和光流特征。由于片段的时间跨度短和初始特征不合适这两个方面的限制，这些WTAL方法缺乏对时间信息的有效利用，性能有限。本文提出的TFE-DCN具有扩大的感受野，覆盖了较长的时间跨度来观察动作实例的完整动态，这使得它能够强大地捕获片段之间的时间依赖性。此外，还提出了模态增强模块，该模块可以通过增强光流特征来增强RGB特征，使整体特征适合WTAL任务。

2.主要贡献

　　•TFE-DCN可以有效地利用时间特征，并准确预测动作边界。所提出的TFE-DC模块具有新颖的膨胀结构，反映了不同感受野尺度的时间信息对最终注意力权重的影响。

　　•提出了一个模态增强模块，该模块保持两模态之间的一致性，并借助增强的光流特征重新校准初始RGB特征，使其更适合WTAL任务。

　　•在THUMOS'14和ActivityNet v1.3上进行了广泛的实验来证明提出的方法的有效性。TFE-DCN优于所有最先进的WTAL方法。

3.方法

　　模型结构如下：

　　该框架的关键部分是时间特征增强膨胀卷积模块(TFE-DC模块)和模态增强模块。TFE-DC模块旨在有效利用时间信息，增强光流特征。该模块的输入为光流特征X_n^Flow，输出为增强光流特征X_n^Flow^∗和时间注意力权值A_n^Flow∈R^T。模态增强模块旨在借助增强的光流特征X_n^Flow*来增强RGB特征X_n^RGB。输入为X_n^RGB和X_n^Flow*，输出为增强RGB特征X_n^RGB^∗和空间注意力权值A_n^RGB∈R^T。则X_n^RGB^∗和X_n^Flow*拼接得到X_n^∗∈R^2D×T。X_n^∗输入分类器得到时序类激活序列TCAS S_n，使用时间注意力权值An^Flow来抑制Sn中背景的激活，得到被抑制的TCAS

　　TFE-DC模块有效地利用时间信息，增强光流特征，使其更适合WTAL任务，结构如下：

　　该模块包含一个K层膨胀卷积网络(在此图中K = 3)，以扩大感受野并捕获不同时间尺度片段之间的依赖关系。ReLU的输出经过sigmoid函数再与光流特征相乘得到增强的光流特征X_n^Flow*，X_n^Flow*输入过滤器，也就是三层1D卷积层，再输入sigmoid函数得到注意力权重A_n,k^Flow∈R^T，将每一层输出的A_n,k^Flow加权平均得到时间注意权重A_n^Flow。

　　模态增强模块通过增强光流特征来增强RGB特征，主要的区别是使用了共享卷积层，使两种模态的权重分布更加接近，结构如下：

　　将RGB特征X_n^RGB和增强光流特征X_n^Flow*输入到共享卷积层中，然后对卷积层的输出应用sigmoid函数得到两个权重，X_n^RGB与这两个权重相乘得到增强的RGB特征X_n^RGB*，将其输入过滤模块(由三个时间1D卷积层和其后的sigmoid函数组成)，得到空间注意力权值A_n^RGB

posted @ 2023-05-11 19:40 Lhiker 阅读(67) 评论(0) 编辑收藏举报

刷新页面返回顶部

自由方向

Temporal Feature Enhancement Dilated Convolution Network for Weakly-Supervised Temporal Action Localization概述

0.前言

1.针对的问题

2.主要贡献

3.方法

公告