Weakly-Supervised Temporal Action Localization by Inferring Snippet-Feature Affinity

摘要

　　弱监督时间动作定位的目的是在未修剪的视频中定位动作区域并识别动作类别，仅以视频级标签作为监督信息。伪标签生成是解决具有挑战性问题的一种很有前途的策略，但现有的大多数方法都局限于使用片段级分类结果来指导生成，而忽略了视频的自然时间结构也可以提供丰富的信息来辅助生成过程。本文提出了一种基于片段特征亲和力的弱监督时间动作定位方法。首先，我们设计了一个亲和度推理模块，利用时间相邻片段之间的亲和关系来生成初始的粗伪标签。然后，我们引入了一个信息交互模块，该模块通过探索视频内部和视频之间的关系来增强片段特征的判别性，从而细化粗标签。最后，利用信息交互模块生成的高质量伪标签来监督动作定位网络的训练。在两个公开可用的数据集(即THUMOS14和ActivityNet v1.3)上进行的大量实验表明，与最先进的方法相比，我们提出的方法实现了显著改进。

1.介绍

　　时间动作定位(TAL)[1-7]旨在从未修剪的视频中找到动作实例，即预测某些动作的开始位置、结束位置和类别。它在视频理解中是一项重要但具有挑战性的任务，已广泛用于监控和视频摘要。为了准确定位，大多数现有方法[1 - 3,6,7]依赖于在人工标记的精确时间注释的帮助下以完全监督的方式训练模型。然而，对视频进行精细的标注是一项劳动密集型和昂贵的工作。相比之下，弱监督方法仅利用视频级标签进行时间动作定位，在降低人工标注成本的同时取得了有竞争力的结果，越来越受到学术界和工业界的关注。

　　图1所示。说明片段、动作得分和ground truth(GT)之间的关系。动作片段被标记为红色，背景片段被标记为黑色。

　　弱监督TAL方法[8-16]主要利用“分类定位”框架，通过片段分类获得一系列时间类激活图(Temporal Class Activation map, TCAMs)[17,18]，然后利用TCAMs生成动作定位的时间建议。然而，分类器主要关注容易识别的片段，而忽略了不太明显的片段，因此分类和定位之间存在差异，导致动作定位结果不准确。最近，人们提出了基于伪标签的方法[4,5,19 - 22]来缓解这一问题，这些方法大多使用从片段级分类中获得的动作建议来指导伪标签的生成。然而，我们观察到视频在时间维度上自然地提供了亲和关系(片段之间的变化)，可以帮助指导伪标签生成。如图1所示，动作和背景的相邻片段特征具有明显不同的亲和关系。动作(左)用红点表示，表明相邻片段特征之间有很大的变化，表明亲和力值较高。相比之下，背景(右)用一个黑点表示，它与一个较小的亲和力值相关联。

　　受这种现象的启发，我们提出了一种新的弱监督的TAL方法，该方法采用了一种新的视角，利用时间亲和性用高质量伪标签标记每个片段。首先，我们设计了一个亲和度推理模块，利用片段特征之间的差异，计算相邻片段对的亲和关系，为这些片段提供初始的粗伪标签。然而，这个过程只考虑了局部关系，忽略了视频的全局结构信息。因此，我们提出了一个信息交互模块，通过探索视频内和视频间的关系来细化初始的粗伪标签。前者有助于区分前景和背景，而后者有助于压缩同一类的片段特征。最后，将信息交互模块输出的特征输入分类头，生成最终的细粒度伪标签，实现高可靠监督。本文的贡献可以归纳为以下几点:

　　(1)我们提出了一种简单而有效的伪标签生成策略，通过推断片段-特征亲和度，利用时间变化来指导弱监督TAL生成高质量伪标签。

　　(2)我们设计了一种新的信息交互模块，通过建立视频内部和视频之间的联系来增强片段特征的判别。

　　(3)我们在两个广泛使用的数据集上进行了大量的实验，结果表明我们的模型在THUMOS14和ActivityNet v1.3上分别达到46.8和25.8的平均mAP，显示了它的优越性。

2.相关工作

　　全监督的时间动作定位。多年来，全监督TAL一直是一个活跃的研究领域，现有的方法分为one-stage法和two-stage法两大类。单阶段方法[1,3,7,23]同时预测动作边界和标签。相反，two-stage方法[1 - 3,6,24]首先找到候选动作提案，然后预测其标签。然而，这些完全监督的方法是用实例级人工标注进行训练的，这导致了一个昂贵且耗时的过程。

　　弱监督的时间动作定位。弱监督TAL方法[4,5,8 - 16,19 - 21,25,26]主要学习视频级标签，与完全监督方法相比，它避免了劳动密集型的标注过程。UntrimmedNet[27]和STPN[17]采用多示例学习(MIL)框架生成类激活序列，然后通过阈值处理定位动作实例。RPN[28]和3C-Net[29]使用度量学习算法来学习更多的判别特征。Lee等人[30]设计了一个背景抑制网络来抑制背景片段的激活。DGAM[11]研究的是动作-语境分离问题。然而，分类和定位之间存在差异。最近，许多方法[4,5,19 - 21,25]试图生成伪标签来监督模型训练过程，从而缓解差异。RefineLoc[19]通过扩展之前的检测结果来生成伪标签，缓解了分类和定位之间的差异。Luo等人[21]利用期望最大化框架[31]，通过交替更新键实例分配分支和前景分类分支来生成伪标签。TSCN[20]在考虑两流共识的情况下，通过后续融合注意力序列生成帧级伪标签。Li等人[22]利用对比表征学习来增强特征识别能力。ASM-Loc[5]使用标准的基于mil的方法将动作提议作为伪标签生成。在本文中，我们的方法的不同之处在于，我们从视频特征本身出发，利用相邻片段特征之间的变化来寻找亲和关系，并用于生成初始的粗伪标签。此外，我们设计了一个视频内/视频间信息交互模块来生成细粒度的伪标签。

3.方法

　　在本节中，我们将首先介绍弱监督TAL的问题定义，并提供我们提出的方法的概述。接下来，我们将详细描述该方法的不同模块，这些模块旨在利用片段-特征亲和性生成高质量伪标签。最后介绍了优化时间定位模型的训练细节。

　　问题的定义。弱监督TAL旨在通过一组未经裁剪的训练视频{V_i}_i=1^N及其相应的ground truth标签{y_i}_i=1^N来预测每个测试视频的一组动作实例(c, q, t_s, t_e)。具体来说，y_i∈R^C是指示C类动作是否存在的二值向量。对于一个动作实例，c表示动作类别，q表示预测置信度得分，t_s和t_e分别表示动的开始时间和结束时间。

　　概述。我们提出的方法概述如图2所示，主要包含三个部分:(a)base分支，(b)亲和度推理模块，(c)信息交互模块。首先，在base分支中，我们利用固定的预训练backbone网络(例如I3D)从输入视频的外观(RGB)和运动(光流)中提取T个片段特征。然后，采用一个可学习的分类头对每个片段进行分类，得到预测的TCAMs。然后，亲和度推理模块通过计算相邻片段特征对之间的差值生成亲和值，并根据得到的亲和度为这些片段分配初始粗标签{b_i}^T_i。随后，信息交互模块利用多层次注意力来探索视频内部和视频之间的关系，从而增强动作片段特征与背景和其他类特征的可分离性。最后，将输出的特征输入到分类头中，生成高质量伪标签作为base分支的监督信号。

　　图2。我们的模型概述。首先，base分支(a)从视频中的RGB和光流中提取特征，并使用分类头预测TCAMs。然后，亲和度推理模块(b)利用片段特征之间的亲和关系为每个片段分配初始的粗伪标签。接下来，信息交互模块(c)通过探索视频内部和视频之间的关系，利用多层次注意力来细化标签。最后，(c)生成高质量伪标签来监督base分支。

3.1.base分支

　　给定一个未修剪的视频V，我们按照[4,17]将其拆分为多个不重叠的片段{V_i}^T_i=1，然后我们使用在Kinetics- 400[33]数据集上预训练的I3D[32]网络从每个片段的RGB和光流中提取特征。嵌入层将这两类特征进行拼接，将它们融合在一起，将所有片段的融合特征作为视频的片段特征F = {f₁, f₂，···，f_T}∈R^T×D，其中T为片段的个数，D为一个片段特征的维数。接下来，我们使用分类头来获得时时序类激活映射(TCAMs)∈R^T×(C+1)，其中C+1表示动作类别的数量加上背景类。具体来说，遵循之前的工作[4]，分类头由一个class-agnostic注意(CA)头和一个多示例学习(MIL)头组成。

3.2.亲和度推断模块

　　时间相邻片段的变化可以指示每个片段是属于前景还是背景，前景片段之间的变化较大，背景片段之间的变化较小，如图1所示。因此，我们提出了一个亲和度推理模块，利用差异度来探索相邻片段对的亲和关系，然后使用它来生成视频中的前景和背景候选。

　　给定一个视频及其片段级表示F∈R^T×D，我们首先计算每对时间相邻片段特征{f_t₋₁, f_t}的亲和值τ_(t₋_1,t)，公式为:

　　其中，diff表示计算L1距离操作，d∈D表示特征的元素索引。

　　随后，我们通过计算所有对的差值来获得输入视频的亲和性集合τ:

　　为了获得视频的前景片段，我们首先对亲和性集合τ进行降序排序，然后根据排序后的τ为每个片段分配初始粗伪标签B = {b_i}^T_i=1。选取排序得分前K的片段作为潜在前景，其余的作为潜在背景，分配伪标签的过程可表示为:

　　其中b_t= 1表示其对应的片段f_t属于前景候选，否则属于背景候选。最后，以一种简单的方式为片段生成粗略的伪标签。由于backbone是固定的，在训练过程中亲合力不会改变，保证了稳定性。然而，直接利用它们来监督base分支的学习，由于存在许多误识别的样本，会取得较差的性能，但它为生成高质量伪标签奠定了一个起点。接下来，我们将介绍如何利用这些候选样本来细化这些粗糙的伪标签。

3.3.信息交互模块

　　在亲和度推理模块中，我们计算每对相邻片段之间的亲和值，该操作可以看作是利用局部关系的一种类型，但非局部片段之间的关系仍未得到充分的研究。因此，我们提出了一个信息交互模块，通过探索视频内部和视频之间的关系来增强片段特征的判别性，提高生成的伪标签的细粒度质量。我们收集前景(b_i=1)和背景(b_i=0)候选的特征，分别形成F^a∈R^Ta×D和F_b∈R^Tb×D，其中F^a∪F^b= F, T ^a+ T ^b= T, T^a表示前景片段的个数，T^b表示背景片段的个数。

　　视频内信息交互。为了使前景和背景片段特征之间更加可分离，我们分别沿着通道和时间维度执行多级注意力，探索同一视频中前景、背景和视频片段特征之间的关系。首先，我们在squeeze-and-excitation模式中学习一个通道注意力，以生成特征^a∈R^Ta×D:

　　其中⊗表示逐元素的乘法。θ是一个简单的多层感知器，由FC-ReLU-FC序列组成。我们将第一个FC的权重设置为W₁∈R^D×(D/r)，第二个FC的权重设置为W∈R^(D/r)×D_，r是一个缩放因子。采用残差连接保持训练的稳定性。

　　然后，我们进行了一个时间层面的注意力操作，以捕捉^a和F之间的全局上下文关系，如下面的等式:

　　其中表示矩阵乘法。通过整合这种多层次的注意力学习，我们得到一组判别片段特征^a∈R^T×D。

　　但是，F^b中包含的一些信息被忽略了，其中包含一些错误识别的前景片段或与动作相关的信息。因此，利用F^b中的信息可以帮助提高片段特征的多样性，并且我们还通过等式(4)和等式(5)在F^b和F之间执行多级注意力以生成背景增强特征^b。注意，等式(4)中的参数在F^a和F^b之间不共享。随后，我们应用动态混合操作来平衡^a和^b之间的贡献，得到增强的特征∈R^T×D如下:

　　其中σ表示权衡因子。

　　视频间信息交互。考虑来自同一类别视频的动作信息可以提供额外的线索，帮助提高片段特征的判别性质和生成的伪标签的质量。因此，我们设计了一个视频间交互模块，利用视频之间的相关性对同一类别的片段特征进行压缩，使不同类别的特征可区分。

　　首先，我们引入一个memory bank M∈R^C×N×D来存储训练过程中整个数据集的信息，其中C表示类的数量，N表示每个类存储的片段的数量，D表示维数。最初，我们使用分类头来预测前景候选的分数，并选择具有最高N个分类分数的片段来初始化内存M和分数。在第t次训练迭代时，我们为每个类选择得分较高的N个片段特征f_[c]^(t)来更新上一次迭代M(t−1)的内存[c]。这个过程可以表述为:

　　为了提高鲁棒性，我们采用动量更新策略[34]来更新内存M，因此η按以下方式调整:

　　其中η₀为初始动量系数，e为当前epoch，e为总epoch，c为当前片段的类索引。同时，我们利用视频内交互模块中混合特征与内存M_[c]^(t)之间的时间级注意力运算，将整个数据集的类信息带入，可表示为:

　　最后，从视频信息交互模块中得到输出特征和。然后，我们将它们提供给分类头以输出两个TCAMs和，之后对它们进行求和，以获得^p作为伪标签，以监督base分支的学习。

3.4.训练损失

　　按照以往的方法，整个学习过程由视频级分类损失L_cls，知识蒸馏损失L_kd和注意力归一化损失L_att[20]共同驱动。总损失函数可表示为:

　　其中β， λ表示权衡因素。利用知识蒸馏损失L_kd[4]来实现^p监督进行训练的过程。视频级分类损失是CA头和MIL头计算的两个损失的组合，可以表示为:

　　其中θ是超参数。更多关于每个损失函数的详细信息请参阅附录。

4.实验

4.1.数据集和评估指标。

　　我们在两个常用的基准数据集上进行了实验，包括THUMOS14[37]和ActivityNet v1.3[38]。遵循一般的弱监督设置，我们在训练过程中只使用视频级别的类别标签。

　　THUMOS14包括200个未经修剪的验证视频和212个未经修剪的测试视频，其中的视频是从20个动作类别中收集的。根据之前的工作[5,27,36]，我们使用验证视频来训练我们的模型和测试视频进行评估。

　　ActivityNet v1.3包含200个动作类别的10024个训练视频，4926个验证视频和5044个测试视频。接下来[4,13]，我们使用训练视频训练我们的模型和验证视频进行评估。

　　评价指标。我们用标准的评价指标来评估我们方法的性能:在不同的交并比(IoU)阈值下的均值平均精度(mAP)。对于THUMOS14数据集，我们报告了阈值IoU={0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7}下的mAP。对于ActivityNet v1.3数据集，我们在阈值[0.5:0.05:0.95]下报告mAP。同时，我们还计算了两个数据集上不同IoU范围的平均mAP。

4.2.实现细节

　　我们使用PyTorch框架实现模型，并使用Adam优化器训练模型[39]。缩放因子r设置为4。超参数θ、β和λ分别设置为0.2、1.0和0.1。使用I3D[32]提取特征，I3D在Kinetics-400[33]数据集上进行预训练。对于THUMOS14数据集，我们训练180个epoch，学习率为0.00005，batch大小设置为10，σ设置为0.88，K设置为50% * T，其中T为视频片段的数量。对于ActivityNet v1.3数据集，我们训练100个epoch，学习率为0.0001，batch大小设置为32，σ设置为0.9，K设置为90% * T。在测试阶段，我们使用base分支和视频内信息交互模块来获取动作实例建议。

4.3.与最先进方法的比较

　　THUMOS14。我们首先在THUMOS14数据集上将我们的方法与最新技术(SoTAs)进行了比较。这些SoTAs包含全监督方法[1 - 3,6,7]和弱监督方法[4,5,8,10-13,15-17,20-22,25,28-30,35,36]，结果如表1所示。我们可以清楚地观察到，我们提出的模型优于最先进的弱监督时间动作定位方法。我们提出的方法在IoU阈值0.1:0.5的平均mAP达到了57.8，在IoU阈值0.3:0.7的平均mAP达到了37.6，在IoU阈值0.1:0.7的平均mAP达到了46.8。同时，我们的结果在mAP@0.5上可以达到41.8。提高性能的原因是:1)我们的方法利用片段特征之间的亲和关系生成粗标签，然后考虑上下文信息，提高了前景和背景片段特征之间的可分离性;2)引入额外的动作线索，充分利用训练数据中视频之间的关系，提高片段特征的判别性质。因此，生成更多的高质量伪标签可以显著提高动作定位的性能。

　　ActivityNet v1.3。表2展示了ActivityNet v1.3数据集上mAP@IoU方面的评估结果。从表中可以看出，与其他sota相比，我们的模型取得了有竞争力的性能。此外，我们的方法平均mAP达到25.8，比ASM-Loc高0.7，证明了我们方法的优越性。

　　表1。在THUMOS14数据集上与最先进的方法进行对比。AVG列显示了在0.1:0.5、0.3:0.7和0.1:0.7的IoU阈值下的平均mAP。*表示方法使用了额外的信息。最好的结果将以粗体突出显示。

　　表2。在ActivityNet v1.3数据集上与最先进方法的比较。AVG列显示了IoU阈值[0.5:0.05:0.95]下的平均mAP。

4.4.消融实验

　　我们进行了消融研究，以证明我们的方法中不同成分对THUMOS14数据集的影响。

　　表3。消融研究在THUMOS14数据集上检测前景的不同策略。AVG列显示了IoU阈值下的平均mAP[0.1:0.1:0.7]。

　　亲和性推断模块的影响。为了在等式(1)中找到合适的函数，我们探索了几种策略来计算每对相邻片段之间的亲和力，包括余弦距离、L₁distance和L₂distance，结果如表3所示。结果显示，L₂distance可以实现比余弦距离更高的mAP，相比其他方法，L₁distance产生了最好的结果，因此我们采用它作为默认的diff函数。

　　信息交互模块的影响。我们主要评估两个信息交互模块的效果。结果如表4所示。我们将base分支设置为base，并逐步将视频内模块和视频间模块添加到base中，性能不断提高3.4%和6.3%的平均mAP。

　　然后，我们评估了视频内信息交互的不同变体的影响。结果如表5所示，其中1)self表示视频片段特征F与自身之间的时间注意力;2) w/o前和w/o后分别表示去除前景和背景片段特征;3) fore + back表示将两类特征直接相加;4)动态混合是指采用动态混合操作将两类片段特征融合;5) temporal表示仅使用时间注意力来增强视频片段特征。我们可以观察到，1)前景片段特征对性能有显著影响，去除这些特征会导致性能显著下降;2)直接添加背景片段特征会影响最终的性能;3)动态混合更有效，有助于背景片段特征信息的利用;4)通道级和时间级的注意力操作可以更好地增强判别片段特征。

　　表4。信息交互模块中视频内和视频间组件对THUMOS14数据集的影响。

　　表5所示。视频内信息交互模块中不同组件对THUMOS14数据集的影响。

　　表6所示。统计整个数据集上不同模块正确预测的动作片段的平均数量，其中亲和性表示亲和性推理模块。

　　表7所示。不同内存更新策略对THU- MOS14数据集的影响。AVG表示IoU阈值[0.1:0.1:0.7]下的平均mAP。

　　为了定量地展示我们所提出的信息交互模块的效果，我们计算了亲和度推理模块正确推断的前景片段和信息交互模块精炼的前景片段的平均数量。统计结果如表6所示。由于忽略了全局视频结构信息，根据亲和力分配片段只能产生相对较少的正确推断。然而，我们的信息交互模块(在表中表示为我们的)的加入显著提高了推理的准确性，这表明整合视频间和视频内的关系是减少亲和性推理模块局限性和提升时间定位准确性的有效方法。

　　内存更新策略的影响。我们探索了不同记忆更新策略在视频间信息交互模块中的影响。评估结果如表7所示。我们评估了两种内存更新策略，即仅使用高置信度前景片段特征直接更新内存和仅使用动量更新策略更新内存。从表中可以看出，我们的方法比只使用动量更新策略获得了更好的性能，因为直接使用动量更新策略会包含许多噪声特征，不利于视频内关系的学习。结果表明，与直接更新策略相比，我们的方法可以有效地吸收更多的动作信息。

4.5.定性结果

　　为了帮助理解我们提出的方法的效果，我们在小节中展示了一些定性的结果。首先，我们在图3中展示了从THUMOS14数据集中选择的一些案例，我们观察到我们的方法可以比基本分支和ASM-Loc(黑色线框)更准确地定位动作区域。同时，我们采用t-SNE技术将THUMOS14数据集中的一段视频的嵌入特征投影到二维特征空间中，结果如图4所示。结果表明，该方法能准确地将前景的嵌入特征融合在一起，使其远离背景。可视化结果验证了学习到的特征的判别能力，从而支持准确估计的动作定位结果。然后，我们通过t-SNE将不同类别的片段特征投影到二维特征空间中，结果如图5所示，结果表明，与base分支相比，我们的方法可以将同一类的片段特征紧密地聚集在一起，并将不同的类分开。

　　为了进一步验证视频信息交互模块的细化能力，我们选择了THUMOS14数据集中的“SoccerPenalty”样本来可视化亲和度推断模块推断的亲和度值，根据亲和度生成的粗标签，以及信息交互模块细化的精细标签。结果如图6所示，我们可以看到，与亲和度推理模块相比，信息交互模块可以预测更准确的动作片段，这证明了其有效性。具体来说，亲和度推理模块预测黑箱中具有较大亲和值的背景片段，这实际上是由于背景突变导致的，导致错误的粗标签。通过信息交互模块对错误识别的片段进行了校正，证明了该方法的可行性，同时也证明了我们的信息交互模块可以改进亲和度推理模块的推理结果，产生更准确的伪标签。橙色框中的片段被预测为动作，它实际上是背景和动作的连接部分。

　　图3。我们的方法、Base branch和ASM-Loc在THUMOS14数据集上的定性比较。我们展示了两个例子的动作得分，左边是“跳水”，右边是“网球滑行”。

　　图4。前景和背景嵌入特征的T-SNE可视化。我们将Base Branch和我们的方法以THUMOS14数据集的样本“CliffDiving”进行比较，其中蓝点表示背景，红点表示前景。

　　图5。THUMOS14数据集特征空间的T-SNE可视化。不同的颜色点代表不同的类别。

　　图6.所推断的动作片段的定性比较。从上到下，我们展示了片段特征和亲和力推断模块推断的粗标签之间的亲和力；信息交互模块推断的精细标签；ground truth（GT）。较深的颜色表示前景中的代码片段

5.结论

　　在本文中，我们提出了一种通过推断片段-特征亲和度的新型弱监督TAL方法。设计亲和度推理模块，通过探索片段特征之间的变化来指导伪标签的生成;引入信息交互模块，生成高质量伪标签，通过多级注意力监督模型训练。在两个公开基准上的综合实验证明了所提出方法的有效性和优越性。

　　在这篇补充材料中，我们提供了更多细节，由于篇幅限制，这些细节没有在主论文中呈现。下面，我们首先在章节a中展示每个训练损失函数的详细信息，然后，我们分别在章节B和章节C中展示亲和度推理模块的更多细节和实现细节。最后，D部分展示了前景和背景嵌入特征的T-SNE可视化，并在THUMOS14数据集上进行了更定性的比较。

A.训练损失

　　在本文中，我们的总损失函数由视频级分类损失L_cls[1]、知识蒸馏损失L_kd[2]和注意力归一化损失L_att[3]组成，表示为:

　　其中β， λ表示权衡因素。

　　视频级分类损失L_cls:分类头主要分为两部分:class-agnostic论注意(Class-agnostic Attention, CA)头和多示例学习(Multiple Instance Learning, MIL)头。具体来说，CA头首先利用视频片段特征F∈RT×D和前景分类器W∈RD_f来获得前景注意力分数S∈RT。_f然后，对Sand特征F进行聚合，得到_f特定于视频的前景特征。最后，使用特定于视频的前景特征和动作分类器W∈R(C+1)×D得到视频_a级别的类置信度评分pca∈RC+1。之后，将p与其ground truth类级别标签通过交叉熵损失LCA共同指导^caCA优化过程如下:

　　其中y´∈R(C+1)为真值向量，(C+1)- th值设为0。

　　多示例学习头首先利用视频片段特征F和动作分类器Wto_a得到类激活分数S∈RT_a ×(C+1)。然后，对Sto进行softmax运算，得到_aclass-wise注意力分数S∈RT ×(C+1_c)。最后，我们通过对Sands的聚合得到视频级的类激活分数pmil∈RC+1。然后，我们通过交叉熵损失LMI_cL对mmil头部进行如下优化_a:

　　其中y´0∈R(C+1)与y´相似，只是将(C+1)的值设为1。

　　综上所述，定义了视频级分类损失为:

　　知识蒸馏损失L_kd[2]:用来实现T p监督T进行训练的过程。

　　其中，T p为信息交互模块在分类头后预测的输出，T为base分支在分类头后预测的输出，T为片段个数。

　　注意归一化损失L_att[3]:用于Base分支的输出，目的是明确避免注意力的歧义，可以表示

　　其中T表示片段的数量。A表示每个片段的注意力值，由一个全连接层获得。

B.亲和度推断模块的更多细节

　　我们介绍了Alg中亲和性推理模块中如何推断前景和背景候选者的过程。具体来说，我们首先计算亲和度值τ_(t₋_1,t)，得到整个视频的亲和集τ。然后，对亲和度集τ进行降序排序，将排好序的前K个得分作为潜在前景，其他得分作为潜在背景。最后，生成粗糙的伪标签。

C.更多实现细节

　　在测试阶段，我们遵循[4]，使用一组从0.001到0.04的阈值，步骤为0.002，并在THUMOS14数据集中执行阈值为0.45的非最大抑制(NMS)，以获得动作实例建议。每个视频类别中得分最高的片段个数N在内存中存储为9。对于ActivityNet v1.3数据集，我们将NMS的阈值设置为0.9,N设置为5。

　　更多关于测试阶段的细节。在测试阶段，我们使用base分支和视频内信息交互分支来获取动作实例建议。我们评估了不同变体对测试结果的影响，结果和mac如表1所示。不同的变体包括1)Base表示只使用Base分支;2) Base + intra表示使用base分支和视频内信息交互分支;3) Base + intra + inter表示使用base分支、视频内和视频间信息交互分支。我们发现，在2)和3)时实现了相同的性能，但在使用base分支和视频内信息交互分支时获得了更小的mac。因此，我们利用base分支和视频内信息交互分支来获得动作实例建议。

　　更多关于记忆库的细节。我们使用来自同一类别视频的附加动作信息来帮助提高片段特征的判别性质和生成的伪标签的质量。因此，我们将研究存储在内存中的每个类的片段数目的影响，结果如图1所示。当N为9时，我们的模型实现了最优性能。

　　更多关于视频内信息交互的不同变体的影响的细节。正如主论文中提到的，我们评估了不同变体的视频内信息交互的影响。为了可视化这些变体之间的差异，我们在图2中展示了这些变体，其中1)self表示视频片段特征F与自身之间的时间注意力;2) w/o前和w/o后分别表示去除前景和背景片段特征;3) fore + back表示将两类特征直接相加;4)动态混合是指采用动态混合操作将两类片段特征融合;5) temporal表示仅使用时间注意力来增强视频片段特征。

　　表1。对测试阶段不同成分在THUMOS14数据集上的消融研究。AVG列显示了IoU阈值下的平均mAP[0.1:0.1:0.7]。

　　图1所示。在THU- MOS14数据集上关于N个数的消融实验。

D.更多可视化分析

　　前景和背景嵌入特征的T-SNE可视化。为了直观地展示学习到的特征的识别能力，我们使用T-SNE将在THUMOS14数据集上不同视频样本上嵌入特征的结果可视化[6]。结果显示在图3中。结果表明，该方法能准确地将前景的嵌入特征融合在一起，使其远离背景。这些结果表明，我们优化的模型学习到的特征的判别能力可以有效地区分背景和前景，从而获得更准确的动作定位结果。

　　定性的结果。我们在THUMOS14数据集上展示了更多的定性结果。图4显示了我们提出的方法与基本分支的可视化结果，并给出了每个时间邻域片段对之间的亲和值。这些结果证明了通过亲和性推断模块推断前景和背景候选者的可行性。同时，我们的方法可以比base分支更准确地定位动作区域，直观地表明了本文模型的有效性。