Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation

摘要

　　弱监督时间动作定位的目的是定位动作的时间边界，同时只使用视频级的类别标签来识别动作的类别。许多现有的方法试图生成伪标签来弥补分类和定位之间的差异，但通常只使用有限的上下文信息来生成伪标签。为了缓解这一问题，我们提出了一个代表性片段抽取和传播框架。我们的方法试图挖掘每个视频中的代表性片段，以便在视频片段之间传播信息，生成更好的伪标签。对于每个视频，它自己的代表性片段和来自memory bank的代表性片段被传播，以视频内和视频间的方式更新输入特征。伪标签是从更新特征的时间类激活映射生成的，以纠正主分支的预测。我们的方法在两个基准上(THUMOS14和ActivityNet1.3)与现有方法相比具有优越的性能，在THUMOS14上平均mAP的增益高达1.2%。

1.介绍

　　视频中的时间动作定位在不同的场景中有广泛的应用。这个任务的目标是在未修剪的视频中沿着时间维度定位动作实例。大多数现有的方法[4,18,19,46,54]都是以全监督的方式进行训练的，其中提供了视频级标签和帧级标注。与这些强大的基于监督的方法相比，弱监督的时间动作定位方法试图在视频中定位动作实例，只利用视频级的监督。此设置使该方法能够绕过时间边界的手动注释，这些注释费时，昂贵且容易发生较大变化。

　　图1所示。两个“挺举”动作的例子。条形是ground-truth (GT)。折线图是按片段分类的分数。我们展示了TSCN[50]和STPN[33]两种方法的检测结果。橙色框中的实例对于两种方法来说都很困难，因为大多数片段只显示了运动员的一部分。相比之下，具有正面视角和整个身体的实例(黑色框和绿色框)更容易被检测到。解决此问题的直接方法是将代表性片段的知识(红线)传播到其他片段。

　　由于缺乏细粒度的标注，现有的工作主要采用按分类定位的流程[42,53]，其中使用动作类别[31]的视频级标注进行训练，用来获取一系列类logits或预测，即时间类激活映射(TACMs)。通常，TCAMs通过后处理步骤[33,42](如阈值)或定位分支[23,41]获得检测结果。因此，TCAMs的质量决定了模型的上界。然而，分类与定位之间通常存在差异[20,22,24]。因为每个视频通常包含多个片段(在本文中，我们将片段看作最小的粒度，因为连续帧的高级特征会随着时间平滑地变化[11,45]。)，在只有视频级标注的情况下，该模型很容易会将重点放在对视频级分类贡献最大的上下文背景或判别片段上，这会妨碍高质量TCAMs的生成。

　　为了解决这个问题，提出了基于伪标签的方法[27,35,49,50]来生成基于片段的伪标签，以弥补分类和定位之间的差距。然而，现有的方法只利用有限的信息，即每个片段内的信息，生成伪标签，这不足以生成高质量的伪标签。图1展示了两种方法的检测结果。第一种方法TSCN[50]是一种基于伪标签的方法，而第二种方法STPN[33]是一种不使用伪标签的简单基线模型。正如我们所看到的，即使TSCN比STPN获得了更多的增益，两种方法都没有成功检测到橙色框中的困难动作实例，该实例只显示了运动员的部分身体。显然，由不准确的TCAMs生成的伪标签也是不准确的。相比之下，对于简单的例子，例如蓝框中的例子，这两种方法都能准确地检测到它。

　　上面的观察促使我们为伪标签生成引入上下文信息。具体来说，我们建议以视频内和视频间的方式传播这些代表性片段(如图1中的黑色和蓝色方框)的知识，以方便生成伪标签，特别是对于那些困难的片段(如图1中的橙色方框)。为了实现这一目标，一个主要问题是如何确定具有代表性的片段，以及如何将它们的有用知识传播到其他片段。此外，在视频之间进行snippet级知识的总结和传播，应该是有效的，这样才能利用大数据集中视频的多样性。

　　我们提出了一个具有代表性的片段知识传播框架。为了便于知识的传播，我们提出了对具有代表性的片段进行挖掘，以减轻离群片段的影响，作为片段之间传播知识的桥梁。具体来说，我们利用期望最大化(EM)注意力[17]来处理不同摄像机视图[51]所引起的变化，子动作的差异[8,20]，令人困惑的背景上下文[22,24]以及捕捉每个视频的重要语义，这些在我们的方法中作为代表性片段被分割开来。然后，我们使用一个memory bank来存储每个类的高置信度的代表性片段。这种设计使得我们的方法能够以视频间的方式利用具有代表性的片段，同时也避免了大量的GPU内存开销。此外，为了传播代表性片段的知识，我们提出了一种双向随机游走(BiRW)模块，该模块集成了随机游走操作，用视频内和视频间的代表性片段更新输入视频的特征。更新特征的TCAMs作为在线细化的伪标签，以纠正主分支的预测。

　　本文的贡献有三个方面。(a)提出了一种用于弱监督时间动作定位的具有代表性的片段知识传播框架，该框架通过代表性片段知识传播生成更好的伪标签，从而有效缓解分类与检测之间的差异。(b)建议的框架可应用于大多数现有方法，以不断改善其定位性能。(c)与最先进的方法相比，所提出的框架在THUMOS14和ActivityNet1.3上的平均mAP提高了1.2%和0.6%。

2.相关工作

　　如[20,30,31]所述，在这项任务中，分类和定位之间通常存在差异。最近，人们做出了很多努力来解决这个问题。我们将这些方法分为四类。

　　第一类是基于度量学习的方法。如W-TALC[36]，3C-Net[32]，RPN[7]，A2CL-PT[29]利用中心损失[44]，聚类损失[48]，三元损失[40]等来学习类内压缩特征。然而，这些方法从分类的角度出发，即学习视频级前景特征[7,36]或类级特征[29,32]来增强类内的紧密性。然而，这些视频级的特征是从这些判别片段中聚合而来的，它们很难影响那些在片段级中不那么判别特征。相比之下，我们的方法是从检测的角度出发，通过传播具有代表性的片段的知识，产生更好的片段式伪标签，从而获得更好的检测结果。

　　第二类是基于擦除的方法，其代表方法是[55]和A2CL-PT[29]。这些方法基于对抗性互补学习[52]，首先找到判别区域，然后尝试从剩余区域中选取判别度更低的区域。然而，对于具有不同复杂性的不同类别，很难设置适当数量的步骤。

　　第三类方法建立在一个多分支[20]或多注意力架构上[9,10,22,24]。这些方法采用了与第二类方法相似的思想，只是采用了并行处理。为了避免平凡解，这些方法需要额外的正则化项使分支或注意力得分不同或互补。同样，很难为所有动作类别定义适当数量的分支或注意力。我们的方法也是一个多分支架构。但是，附加分支为主分支生成在线伪标签。因此，我们不是强制分支不同，而是强制它们相似。

　　第四个类别是基于伪标签的方法。RefineLoc[35]是第一种为WTAL生成片段硬伪标签的方法。但是，它只是简单地扩展了之前的检测结果来获取伪标签，可能会导致建议过完整。EM-MIL[27]将伪标签生成放入期望最大化框架中。TSCN[50]建议从late fusion注意力序列生成片段级伪标签。UGCT[49]提出了一种不确定性引导的基于模态协同学习和不确定性估计的伪标签生成协同训练策略。尽管这些方法很成功，但它们几乎没有利用上下文信息来生成伪标签。

　　图2。我们方法的概述。我们首先使用一个附加了小型可学习网络的固定加权骨干网络来提取片段级特征。我们利用期望最大化(EM)注意力[17]来学习每个视频的高斯混合模型(GMM)，其平均向量作为代表性片段。我们使用一个记忆库来存储具有代表性的片段，每个类都有较高的预测得分。为了传播有代表性的片段，我们提出了一个双向随机游走(BiRW)模块来逐步更新原始的特征。在给定原始特征和更新特征的情况下，将它们输入三个具有共享参数的并行分类头中。首先将两个更新特征分支的输出TCAMs进行融合，然后作为在线细化伪标签对主分支的预测进行校正。

3.提出的方法

　　在本节中，我们将详细阐述所提出的方法。整个方法的说明如图2所示。

　　问题的定义。设V = {v_t}^L_t=1为一段时间长度为l的视频。每个视频被分成一系列互不重叠的片段。假设我们有一组N个训练视频{V_i}^N_i=1，用它们的动作{y_i}^N_i=1进行注释，其中其中y_i是一个二进制向量，表示每个k个动作的存在或不存在。在推理过程中，对于一个视频，我们预测一组动作实例{(c, q, t_s，t_e)}，其中其中c为预测动作类，q为置信度得分，t_s和t_e表示开始时间和结束时间。

　　概述。我们提出了一个具有代表性的片段知识汇总和传播框架，用于生成更好的片段级伪标签，以提高最终的定位性能。伪标签在弥合分类和检测之间的鸿沟方面起着重要的作用。然而，现有方法仅利用上下文信息来生成伪标签，这会导致不准确的伪标签并影响性能。我们的关键思想是通过传播代表性片段的知识来生成伪标签，代表性片段作为区分性片段和非区分性片段之间的桥梁，从而间接地在所有片段之间传播信息并生成准确的伪标签，从而提高模型的性能。在我们的方法中，我们首先通过一个特征提取模块来提取视频特征。然后，我们从提取的视频特征中总结具有代表性的片段。具有高置信度的代表性片段保存在一个memory bank中，对于每个视频，我们利用从memory bank中检索的视频内部和视频之间的代表性片段。引入双向随机游走模块对两种具有代表性的视频片段进行视频特征更新。给出了视频特征和更新后的视频特征，并将它们与共享参数分别输入到三个并行分类头中。首先融合更新特征对应的两个分支的输出TACMs，然后作为在线细化伪标签对主分支的预测进行修正。

　　特征提取。给定一个视频，我们首先把它分成一系列不重叠的片段。在[33,36]之后，我们利用固定权重的骨干网络，在Kinetics-400数据集[13]上预训练的I3D[3]，将每个片段的外观(RGB)和运动(光流)信息编码为d=2048维特征。I3D特征通过卷积层编码到潜嵌入F∈R^l×d中，其中l为视频片段数。我们取F作为模型的输入。

　　分类头。分类头用于生成TCAMs，它可以是任何现有的WSTAL方法。为了生成高质量的TACMs，并改进我们的方法的下界，我们使用了最近的FAC-Net[9]作为分类头，因为它的流程简单，性能良好。注意，在我们的方法中有一些对FAC-Net的修改。首先，我们在我们的方法中丢弃了类级前景分类头，因为常用的class-agnostic注意力头和多示例学习头已经使我们的方法实现了高基线性能。其次，我们使用sigmoid而不是softmax函数来获得归一化的前景得分。这个设置使我们的方法能够使用注意力归一化项[50]来获得高度可靠的代表性片段。第三，我们不使用混合注意力策略，该策略旨在缓解分类和检测之间的差异。

　　在下面几节中，我们首先研究如何获取代表性片段的汇总和将它们的信息传播到所有其他片段。

3.1.代表片段汇总

　　获得代表性片段的一种方法是选择预测得分高的片段，即判别片段。然而，如图3所示，即使在大规模的预训练之后，判别片段与同一类别的其他片段之间的相似性通常也很低。直观地说，具有代表性的片段应该能够描述同一个类的大部分片段，以便充当桥梁，将同一个类的片段关联起来，进行知识传播。因此，将判别片段的信息直接传播到其他片段是无效的。因此，我们建议对视频片段的表示进行总结，以获得每个视频的代表性片段。在图3中，我们可以看到，通过对视频片段特征进行聚类(例如k均值，光谱聚类和凝聚聚类)来使用聚类中心作为代表性片段，可以在与其他片段建立更强的关系方面取得更好的性能。实验结果表明，采用聚类方法对具有代表性的片段进行聚类是提高检测性能的重要途径。

　　在这项工作中，我们使用期望最大化(EM)注意力[17]来生成每个视频的代表性片段。EM注意力采用了一种基于高斯混合模型(GMM)[37]的特殊EM算法。具体来说，采用分离的GMM来捕获每个视频的特征统计，并将f_i∈R^d(F∈R^l×d的第i段特征)的分布建模为高斯分布的线性组成如下：

　　其中n为高斯函数数量，µ_k∈R^d，Σ_k∈R^d×d和z_ik表示第k个高斯函数的均值，协方差和权值。按照[17]的方法，我们用单位矩阵I替换协方差，并在下面的方程中忽略它。

　　如图4(上)所示，EM注意力从随机初始化的均值µ⁽⁰⁾∈R^n×d开始。在第t次迭代中，首先执行E步，计算高斯分布的新权值Z^(t)∈R^t×n为

　　其中，λ表示一个控制分布平滑度的超参数。Norm₂(F)表示沿着F的每一行的l2-范数。softmax操作沿着z的每一行执行。因此，z^(t)_ik表示片段特征f_i由第k个高斯分布生成的概率。在E步之后，M步将均值µ更新为

　　其中Norm₁(Z^(t))表示Z^(t)各列的l₁归一化。我们可以看到，等式(3)使用特征F的加权和更新了平均值，Norm₁(Z^(t))的第i行和第k列表示特征f_i对第k个高斯分布的隶属度值。此外，归一化还确保更新µ位于相同的嵌入空间F。因此，交替执行公式(2)和(3)以一种non-local[43]但更有效的方式捕获视频中的全局上下文，这是因为均值µ^(t)∈R^n×d比视频特征F∈R^l×d小得多(l»n)。

　　图3。我们为每个代表性的片段分配与其最近的片段的标签，然后根据ground truth选择同一类别的片段。我们将与代表性片段的相似性高于某一阈值(0.1:0.9)的片段的数量与同一类别的总片段数量的比例作图。EM-Att的结果是根据我们的完整模型计算的。其他结果基于一个学习良好的基线模型的特征，该模型以视频特征F为输入，包含一个分类头。

　　我们在我们的网络中集成了两个EM迭代，以获得有希望的代表性片段(即µ⁽²⁾)。因此，不像[17]使用移动平均来更新初始化的方法µ⁽⁰⁾，以防止过多的迭代导致的梯度消失或爆炸，我们通过标准的反向传播来更新初始化均值。此外，有趣的是，当我们用一个(半)正交矩阵[38]初始化µ⁽⁰⁾时，即使我们固定了初始化的均值(即图3中的EM-Att w/o BP)，所得到的代表性片段比其他聚类方法的聚类中心更具有代表性。在我们的实验中，没有反向传播的EM注意比其他聚类方法具有更好的性能。当我们通过标准反向传播(即图3中的EM-Att)更新初始均值µ⁽⁰⁾时，它们可以捕获数据集的特征分布并达到最优性能。

　　为了使公式清晰并避免混淆，我们将在线计算的代表性片段表示为µ^a。

3.2.代表性Snippet Memory Bank

　　在获得每个视频的代表性片段之后，我们使用一个内存bank来存储每个类高置信度的所有视频的代表性片段。我们的见解是，不同的视频可能包含同一类但外观不同的动作实例。因此，通过memory bank以视频间的方式传播具有代表性的片段可以利用每个类的许多视频的巨大差异来帮助网络识别那些困难的动作实例。

　　图4。代表性片段汇总的说明(上)和代表性片段传播的说明(下)。灰色的线表示E步，而红色的线表示M步

　　具体来说，我们维护了两个内存表，分别用来存储代表性片段的特征及其得分。我们将代表性片段的内存表记为M∈R^c×s×d，其中c为类数，s为每个类的内存槽数(代表性片段)。对于具有代表性的视频片段，我们利用分类头中的动作分类器获得它们的类预测。然后我们将它们对ground truth类的预测得分与记忆表M中具有代表性的片段进行比较，预测得分较高的片段被归档到memory表M中。同时更新分数记忆表中相应的分数。总之，我们只在内存表M中保存tops分数的代表性片段。因此，对于每个视频，我们都有从当前视频中学习到的代表性片段，以及从内存表M中检索到的代表性片段，这些片段对应于ground truth类。

　　为了区别于在线的代表性片段µ^a，我们将离线的代表性片段表示为µ^e。

3.3.代表片段传播

　　考虑到在线和离线的代表性片段µ^a和µ^e，一个挑战是如何将代表性片段传播到当前视频的片段特征F。直观地说，一种直接的方法是使用由公式(2)计算出的亲和性Z^∗(∗是a或e对应于µ^a或µ^e)来进行随机游走操作[1]Z^∗µ^∗。在实践中，我们希望更新的特征不偏离视频特征F太远。因此，传播过程可以制定为F^∗=w·Z^∗µ^∗+(1−w)·F，其中w表示一个参数[0,1]控制特征传播和原始特征之间的权衡。然而，即使代表性代码段与同一类的大多数代码段具有很高的相似性，通过一次传播来完全传播代表性代码段的知识也是不切实际的。我们发现，代表性片段和视频特征F实际上构成了一个完整的二部图，其亲和力被Z^∗显示出来。因此，我们提出了一个双向随机游走(BiRW)模块，使传播的多次遍历能够将代表性片段的知识完全融合到视频片段的特征中。

　　具体来说，BiRW中有多个迭代。在第t次迭代时，传播过程表示为

　　其中F^∗(0)和u^∗(0)分别是视频片段的特征F和代表性片段u^a或µ^e。如图4(底部)所示，方程(4)和(5)也可以看作是一个EM进程，它固定了亲和性Z*，交替地更新F和µ*。因此，具有代表性的片段不仅可以用来传播具有代表性的知识(式(5))，还可以作为桥梁，在F(式(4))的特征之间传播知识。由于其代表性，它们可以更好地在同一类特征之间传播信息。这个过程可以进行多次，以充分融合代表性片段的知识。为了避免计算图展开导致的梯度消失或爆炸，我们使用近似的推理公式如下(详见补充材料)

　　我们也可以按照方程(6)得到进一步细化的代表性片段，并将其存储在memory bank中。然而，我们发现这种方法可以获得与使用原始的代表性片段相当的性能。原因可能是u^a经过几次EM迭代后已经足够稳定了。另外，还有一种可行的方法来更新视频特征F，方法是将代表性片段u^∗固定，并交替更新F和Z^∗。其性能与式(4)，(5)相当，但不及式(6)，u^a和µ^e为了传播代表性片段，请注意，我们不是拼接µ^a和µ^e来传播具有代表性的片段，而是使用公式(6)分别传播µ^a和µ^e的知识。该设计是为了防止从F的同一视频中提取的µ^a在传播过程中占主导地位。因此，经过代表性的片段传播，我们分别得到更新的视频内特征F^a和更新的视频间特征F^e。

3.4.训练目标

　　给定原始视频片段的特征F和更新的特征F^a，F^e，我们将它们输入三个共享参数的并行分类头中，分别输出它们的TACMs T, T^a和T^e。TCAMs T^a和T^e加权求和得到包含视频内和视频间的代表性片段知识的TACMs T^f。我们把T^f作为监督TACMs的在线伪标签

　　其中，t是代码片段的数量。总损失是损失L_kd、三个分类头的视频分类损失L_cls和仅应用于主分支的注意力归一化损失L_att [50]的总和。

　　其中，α和β是平衡超参数。

4.实验

4.1.数据集

　　THUMOS14。我们使用了THUMOS14的子集，它为20个类提供了框架标注。我们在验证集中对模型进行200个未裁剪视频的训练，并在测试集中对212个未裁剪视频进行评估。

　　ActivityNet1.3。该数据集涵盖了200项日常活动，提供了10,024个训练视频，4,926个验证视频和5,044个测试视频。我们使用训练集来训练我们的模型，并使用验证集来评估我们的模型。

4.2.实现细节

　　训练细节。我们的方法分别使用THUMOS14和ActivityNet1.3的Adam[14]优化器以10和16的小批量大小进行训练。超参数w，λ，α和β分别为0.5，5.0，1.0和0.1。由于代表性片段在开始时没有被很好地学习，所以我们只在前100个epoch中使用视频内的代表性片段，然后将memory bank添加到训练过程中。训练过程在200个epoch停止，学习率为5×10⁻⁵。

　　测试细节。我们以整个视频序列作为输入进行测试。当定位动作实例时，类激活序列被上采样到原始帧速率。我们利用主分支和视频内代表性片段的分支进行测试。采用加权和的方法将其与TCAMs进行融合。在检测过程中，我们首先拒绝类概率小于0.1的类别。在[15]之后，我们使用一组阈值来获得预测的动作实例。

4.3.与最新方法的比较

　　我们将我们的方法与最先进的弱监督方法和几个完全监督方法进行了比较。结果见表1和表2。在THU- MOS14数据集上，我们的方法在几乎所有指标上都明显优于以前的弱监督方法。重要准则:平均mAP (0.1:0.5)，

　　表1。ActivityNet1.3验证集的结果。AVG表示IoU阈值0.5:0.05:0.95处的平均mAP值。

　　我们比最先进的方法[6]高出1.2%。我们还注意到，与最近一些完全监督的方法相比，我们的方法在IoU 0.1到0.5处取得了更好的结果。即使一些方法(例如。在表2)中使用了额外的弱监督，例如动作，我们的方法仍然优于这些方法，这说明了我们方法的有效性。在较大的ActivityNet1.3上，我们的方法在平均mAP上仍然比所有现有的弱监督方法高出0.6%。

4.4.消融实验

　　我们对THUMOS14进行了一系列的消融研究。除非明确说明，否则我们不使用存储库。代表性的片段汇总。为了验证代表性片段的有效性，我们需要考虑:(1)生成代表性片段是否必要?(2)如果是，生成代表性片段的有效方法是什么?为了回答这两个问题，我们在表3和表4中进行了几个实验。

　　我们首先定义一个基线模型，它与我们的主分支相同，包含一个分类头，并且使用注意力归一化损失。正如我们所看到的，当我们引入具有代表性的片段并添加第二个分支时，它采用改进的特征F^a作为输入，即使没有两个分支之间的监督，性能也比基线模型有显著提高。这种现象说明了代表性片段的重要性，使得模型将注意力集中在代表性片段上，从而提高了整个动作类的识别能力。当我们进一步利用更新特征的TACMs作为在线伪标签时，我们的方法在平均mAP上获得了4.1%和7.4%的绝对收益，超过了只有代表性片段和基线模型的方法。为了进一步验证代表性片段的必要性，我们将代表性片段替换为原始的视频特征F，因此，BiRW模块变成了一个普通的随机游走模块。值得注意的是，表3中用F替换的µa也比基线模型获得了显著的增益，但平均mAP比我们使用代表性片段的方法低1.8%。此外，我们的方法同时包含了视频内和视频间的代表性片段，平均mAP的最佳性能为45.1%，说明了在视频间传播代表性片段的重要性。

　　表2。在THUMOS14上的检测性能比较。UNT和I3D分别代表UntrimmedNet特征和I3D特征。†意味着该方法使用了额外的弱监督，例如，动作。

　　表3。评价代表性片段生成的必要性和有效性。基线包含一个分类头，并以视频片段特征F作为输入。

　　表4。评价生成代表性片段的不同方法。att表示注意力。

　　表5所示。对代表性片段传播的求值。

　　具有代表性的片段生成的若干策略。如前所述，我们首先验证选择判别片段的方法。这种方法会降低基线模型的性能，这并不奇怪，因为它使模型只关注那些判别片段，从而削弱了检测能力。相比之下，一些传统的聚类方法，如k-means，聚集聚类和光谱聚类，取得了明显的增益比基线模型。我们也评估DBSCAN的[5]。然而，随着训练的进行，DBSCAN很难更新合适的超参数，导致性能非常低。值得注意的是，EM-Att w/o BP的平均mAP达到了42.8%的高性能，远远优于其他聚类方法。这可能归功于它的正交初始化，这使得学习的代表性片段能够集中于不同的视频部分。此外，当允许反向传播时，性能进一步提高了1.4%。在补充材料中提供了更多的实验结果。代表性的片段传播。为了评估代表性片段传播的有效性，进行了几个比较实验，结果见表5。我们首先评估代表性片段传播的一些变体。我们注意到随机游走Z^aµ^a恶化了性能。相反，如图5所示，即使我们加权和Z^aµ^a与原始特征(即。，迭代1)时，性能将显著提高，表明Z^aµ^a与原始视频特征f相差太大，而且随着迭代次数的增加，性能也会提高。但当迭代次数过大时，性能略有下降，即使存在残留机制(与视频特征加权求和)，也可能是梯度消失或爆炸造成的。尽管它们的性能很好，我们提出的近似推理获得了最优的结果。

　　图5。式(4)和式(5)两种不同迭代次数的检测结果。

　　表6所示。将本方法应用于现有方法的检测结果。嵌入是指我们在骨干网之后加入一个可学习的网络来学习视频特征。再现了原始方法的结果。

　　我们进一步验证了传播的另外两种变体。第一个变体是传播分数，它遵循一种知识集合体的方式来传播代表性片段的预测分数，而不是它们的特征。因此，只有主干有视频级分类损失。第二种改型，传播特征w/o L_cls，也支持-巩固了代表性片段的特征，但消除了视频级分类损失。这两个变体都比基线模型有优势，但比我们的最终解决方案差得多。因此，这两个额外的分支不仅提供了在线伪标签，而且还强制模型将重点放在具有代表性的片段上，从而提高了模型定位动作实例的能力。

　　将框架与现有方法集成。在表6中，我们用一些现有的方法替换了分类头。在这些实验中，我们使用这些方法的默认设置，以确保公平的比较。另外，如果在这些方法中有额外的损失，我们只强制它们在主干上。正如我们所看到的，无论是一些早期的方法还是最先进的方法，我们的方法都可以不断地提高它们的性能。

　　图6。我们在THUMOS14[12]上给出了铅球和跳水两个例子的定性结果。PL表示伪标签。

4.5.定性结果

　　我们在图6中可视化了一些检测到的动作实例和生成的伪标签的例子。在shotput的第一个例子中，与TSCN[50]相比，我们的方法生成了更精确的伪标签，成功检测到第三个动作实例(黑色矩形)。在第二个潜水示例中，我们的方法利用具有代表性的背景片段的知识来有效地抑制背景的响应。

5.结论和局限性

　　我们提出了一个有代表性的片段汇总和传播框架。我们的方法旨在通过传播代表性片段的知识来生成更好的伪标签。我们总结了每个视频中的代表性片段，并维护一个内存表来存储代表性片段。对于每个视频，视频内部和视频之间的代表性片段被传播，以更新视频特征。更新特征的时间类激活映射作为在线伪标签来纠正主分支的预测。我们的方法在两个流行的数据集上实现了最先进的性能，并可以持续改善现有方法的性能。

　　由于传播过程中的矩阵反演，我们的方法中一个epoch的训练时间几乎是基线模型的两倍。我们将在以后的研究中采用一些有效的矩阵反演策略来解决这个问题。

posted @ 2023-05-22 18:12 Lhiker 阅读(158) 评论(0) 编辑收藏举报

刷新页面返回顶部

自由方向