Action Graphs: Weakly-supervised Action Localization with Graph Convolution Networks

0. 前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息：

领域：弱监督时序行为定位
发表时序：WACV2020（2020.2.4）

摘要

　　提出了一种基于图卷积的弱监督动作定位方法。为了找到和分类对应于相关动作类别的视频时序段，系统必须能够识别每个视频中的区别性时序段，并识别每个动作的完整范围。要通过弱视频级别标签实现这一点，系统需要在训练数据中使用视频片段之间的相似性和相异性，以了解动作是如何出现的，以及构成动作完整范围的子动作。然而，目前的方法没有明确利用视频片段之间的相似性来进行定位和分类预测。我们提出了一种新的方法，使用图卷积来显式地建模视频片段之间的相似性。我们的方法利用相似图对外观和运动进行编码，并在THUMOS14、ActivityNet 1.2和Charades上实现了弱监督动作定位的SOTA性能。

1.介绍

　　时序活动定位是识别每个动作发生的开始和结束时间的问题[2,12]。在完全监督的环境中，每个训练视频都会标注每个动作发生的开始和结束时间。然而，获取手动时态标注是一项繁重的任务，并且严重限制了系统可以训练识别的操作的数量和多样性。相比之下，能够成功地对带有弱视频级别标签的动作进行分类和时序定位的系统（仅说明视频中是否存在某个活动）提供了更具可伸缩性的解决方案。

　　在没有帧级标注的情况下，弱监督系统必须依赖视频时序段之间的相似性提示。具体来说，他们必须（1）利用不同动作类别的前景片段之间的差异来正确分类视频；（2）使用相同动作的前景片段之间的相似性/关系来确定动作的完整范围；（3）推断不同动作视频片段之间的相似部分代表背景片段。

　　图1.关键思想：扔棒球不是由单个动作定义的，而是由一系列与视频中其他动作不同的小动作定义的。尽管如此，之前的方法在整理定位预测之前对每个时序段进行单独分类（左）。相反，我们明确地为弱监督的时序动作定位（右）建模了每个片段的相似之处——蓝边——和不同之处——红边。

　　尽管在这个具有挑战性的问题上已经取得了很大的进展，但现有的方法[37,20,19,31]并没有明确地对时序段之间的关系进行建模，以提供最终的预测。相反，大多数方法首先将视频分割成多个时序段，并分别对每个时序段进行分类。然后，将这些片段级预测汇集在一起，使用多示例学习执行最终的视频级分类[42]。时序段之间的关系要么仅在训练期间含蓄地用于学习注意力[19]，执行最终视频级别分类[31]，要么用于创建良好的特征[37,20]，但在测试期间不使用。相比之下，Xu等人[35]使用循环神经网络来模拟时序段之间的关系。然而，时序上相距遥远或属于不同视频的时序段之间的相似性无法在其框架中建模。换句话说，该模型无法确保与同一动作相关的所有时序段（无论时序位置如何）都得到类似的处理。

　　主要思想。我们的主要思想是明确建模视频时序段之间的相似关系，以便对视频中的动作进行分类和定位。为此，我们使用图卷积网络（GCN）[30]。

　　与常规卷积网络类似，GCN也对输入特征进行非线性变换。然而，此外，GCN将输入特征视为带有加权边的图中的节点。通过将边权重设置为与节点之间的相似性水平成比例，GCN允许当梯度在加权边上传播时，以及在整个图上执行推理时，将特征相似性和相异性纳入权重学习过程。

　　通过使用GCN，我们的方法明确地确保了在训练和测试过程中都考虑了时序段之间的关系。我们将视频中的每个片段表示为图中的一个节点，节点之间的边通过它们的相似性进行加权。每个片段的特征表示将转换为与其连接的所有片段的加权平均值，权重基于学习的边强度。然后利用这些加权平均特征学习来基于多示例学习的视频分类器。我们使用片段之间的外观和运动相似性来确定边权重：具有相似RGB和光流特征的两个节点之间的边比具有不同RGB和光流特征的两个节点之间的边更强。通过这种方式，学习到的权重一起作用于一组特征，而不是单独的时序段。这有助于防止网络只关注视频中的几个有区别的部分。

　　贡献。（1）一种新的用于弱监督动作定位的图卷积方法。我们的方法基于一个外观和运动相似图，是第一个在弱监督的动作定位设置中使用图卷积的方法。（2）我们分析模型的每个组成部分，探索其他基于图的替代方案，并与其他非基于图的方法进行定量和定性比较。（3）我们在弱监督的环境下，在一些广泛使用的动作检测数据集，THUMOS14[15]和ActivityNet 1.2[7]上推进了SOTA，并且是第一个在Charades[27]上展示结果的。

2.相关工作

　　弱监督动作定位在文献中有许多不同的变体。[20] 鼓励具有相似分类预测的时序段使用co-activaity相似性损失具有相似的中间深度特征。和我们一样，它使用片段之间的特征相似性来改进定位。然而，与我们的方法不同，它只使用特征相似性来提供训练监督，而不建模特征关系来进行预测。另一些工作则通过随机隐藏[28]或在训练中迭代去除[38]，以阻止网络只关注最具区分度的时序段。[26]使用对比损失进行更全面的时序定位，[39]还使用连贯损失进行视觉一致的动作识别。最近的工作学习在训练期间参与并汇集每个时序段的预测[19,37]，而未经剪辑的网络[31]同时学习分类和选择视频中最显著的片段。然而，这些方法不考虑测试期间的时序段之间的关系。相比之下，通过在视频水平图上进行推断，我们的方法可以在训练和测试期间使用整个视频中的信息来实现更好的定位。最近的研究[35]使用循环神经网络来模拟时序段之间的关系。但是，无法对时序上相隔较远或属于不同视频的时序段之间的关系进行建模。相比之下，我们的模型在建模时序段之间的相似性和相异性关系时不受时序接近性的限制。

　　有些工作使用了额外的线索，比如人物检测[29,34]、脚本/字幕[18,10,4]或外部文本[24]。其他人使用活动排序信息来帮助区分聚类[5,6]，时序对齐[13,17,23]，以及分割时序建议[1,25]。

　　越来越多的工作探索基于神经网络的图[30,3]。在计算机视觉中，图卷积在捕捉对象之间的空间和时序关系以理解视频对象，以及捕捉时空动态以理解动作方面得到了广泛应用[36,32,33,11,9,40,14]。特别是，[36]开发了一个基于LSTM的视频对象检测图，使用强动作定位标注作为监督。与我们的方法不同，它们不使用图卷积，并且在不同的“轻微监督”设置下操作视频对象检测，其中使用人类动作标签来生成对象检测标签。[33]使用外观相似图和时序相似图来理解视频区域之间的关系，以便进行动作分类。然而，与我们的方法不同，它在完全监督的环境中运行。

3.方法

　　我们的目标是训练一个时序动作定位系统，预测视频中每个动作的开始和结束时间。在训练过程中，我们只获得了弱动作标签：我们知道视频中发生了什么动作，但不知道它们发生的时间或次数。我们使用这些弱动作标签——视频对来训练我们的系统。在测试期间，输入视频没有标签。

　　图2。方法概述：我们使用一个预先训练好的I3D网络来提取视频中每个时序段的输入特征。每个时序段表示为一个图节点，节点之间的边根据学习到的相似度进行加权。段级分类预测是通过对这个图进行推理做进行的。在测试期间，我们对分段级预测进行阈值化，以获得活动定位预测。我们使用多实例学习(MIL)损失来监督分类，使用L1的边权重损失来保持图中的边稀疏，并使用Modified co-activaity相似性损失(M-CASL)来鼓励前景段之间的边权重高于前景和背景段之间的边。

3.1.结构

　　我们的网络架构如图2所示。我们网络的输入是一个l×d_in特征向量，其中l是视频中输入时序段的数量，d_in是特征维度。我们将每个时序段的输入特征称为x，将整个输入向量称为X。然后使用图卷积层对输入特征进行转换。我们使用RGB和基于光流的相似度对图中边加权，其中相似度度量是由一个单独的线性层φ学习的。对于每个输入时序段，网络输出对所有类的预测置信度。我们将最终的预测l×c向量称为Y，其中c是动作类的数量。

3.2.特征提取

　　我们从经过预训练的I3D中提取特征[8]来表示每个视频片段，如[20]所示。具体而言，每个视频由两个l×1024向量（其中l是输入时序段的数量）表示，一个从基于RGB的流中提取，另一个从基于光流的流中提取。这些卷被连接起来，形成最终的l×2048表示。每个时序段对应于以25 FPS或0.64秒的速度提取的16帧。

3.3.图卷积层

　　每个输入时序段被视为图中的一个节点，在该节点上执行推理。节点边根据其相似性进行加权。通过这种方式，相关的时序段可以被推到一起，不相关的时序段可以在特征空间中被分开，同时在训练和测试阶段相互通知。通过这个过程，图卷积可以鼓励更好的定位，因为网络被迫在与其他时序段相似或不同的上下文中检查和预测每个时序段类别。

　　图卷积层对输入X执行以下转换：

　　其中Z是图卷积的l×d_out输出，W是通过反向传播学习到的2048×d_out权重矩阵，是行归一化亲和矩阵G，G是一个l×l亲和矩阵，其中G_ij是x_i和x_j之间的边权重。

　　为了计算G，我们首先对输入特征x学习一个简单的仿射函数φ：

　　其中w和b是权重和偏差项。用于对图边进行加权，以便更相似的节点之间具有更高的边权重。（和之间的边权重）计算如下：

　　其中，f（·）为余弦相似度。

　　G本质上是将X的每一行转换为X的其他行的加权组合。注意，这个公式包含了其他常见层操作。常量G对应于一个没有偏置项的正则完全连接层。一个具有零的非对角线值和非均匀对角线项的G的工作原理类似于注意力机制。通过将G的行设置为1或0，可以执行平均和最大池化操作。多个图卷积层可以堆叠在一起，下一层的Z变成上一层的X。然而，由于我们的数据集的规模较小，我们只使用了一个图卷积层。我们的图卷积层的输出传递到线性分类层，得到最终的l×c向量Y。

3.4.损失函数

　　我们的方法使用三种不同的损失。我们使用多示例交叉熵损失训练网络通过片段级分类正确分类每个视频。我们还对我们的图施加了L1稀疏性损失，使得图的边是稀疏的，并且可以将区分的时序段聚集在一起。最后，我们对学习到的相似度函数φ施加co-activaity相似度损失，以便鼓励每个视频类的显著部分之间具有较高的边权重。

3.4.1多示例学习损失

　　与之前的工作[31,20]类似，我们将弱动作定位问题视为多示例学习（MIL）问题。每个视频都被视为一包示例，其中一些是正面的示例。我们只有视频级别的标签，必须使用它们来正确分类每个视频中的示例。为了做到这一点，我们对所有示例进行分类，然后平均每个类的top k分类预测，得到一个c维视频级预测向量。使用softmax对向量进行归一化，使得在每个维度，p_i代表类的概率。同时，一个视频的二进制ground-truth向量y（一个视频可以包含多个动作类）被归一化，使其总和为1。然后与视频预测向量一起使用，计算一批n个视频的平均多类交叉熵损失，通过y进行索引：

　　我们将k设置为max，其中l是一个视频的输入特征的总数，d是一个超参数。我们在第4.2.3节中进一步分析了d的影响。我们框架的这一部分类似于[20]中的多示例学习损失分支和[31]中的硬选择模块。与二进制交叉熵损失不同，这种损失公式为每个训练视频，而不是每个标签的出现，赋予相等的权重。因此，在标签较少的视频中出现的每个类的示例比与许多其他类同时出现的示例获得更多权重，我们发现这比二进制交叉熵损失带来更好的性能。

3.4.2图稀疏损失

　　总而言之，G将X的行转换为X行的加权平均值。换句话说，G可以将相似的x聚在一起，并将不同的x分开。然而，一个边缘权值接近均匀的G将使网络难以训练，因为X中的判别信号将被平均输出。为了防止这种情况发生，我们通过对G的绝对和施加l1损失来强制G中的边权值是稀疏的：

　　该损失可以鼓励G的稀疏性，从而训练φ从X中创建更紧密的簇。

　　我们发现，另外忽略绝对值较低的边是有帮助的。因此，我们在每个图中删除边，这些边位于其边权重范围的下半部分。

3.4.3Modified co-activaity相似度损失

　　我们的最后一个损失是对co-activaity相似性损失(CASL)[20]的改进。它通过增加前景和背景特征之间的距离，以及减少同一类前景特征之间的距离，来监督与视频片段相对应的中间特征表示。

　　前景和背景表示是时序段的中间特征表示的总和，由其预测的分类置信度加权。具体来说，对于给定的视频，让F_t表示时序段t的中间特征表示，让p_i,t表示属于i类的时序段t的分类置信度，让表示段t在所有类上经过softmax归一化后的p_i,t。前景特征表示f_i和背景特征表示b_i计算为：

　　其中是l视频中的时序段总数。

　　对于视频j及其ground-truth动作类i，得到了前景f_i^j和背景b_i^j特征表示。对于属于同一类i的任意两个视频j和k，它们的前景和背景表示可以用来计算co-activaity相似性损失

　　其中是余弦距离，0.5是边距。

　　图3。定性比较：ground-truth是蓝色的，我们的检测是绿色的，没有图的基线(FC-CASL)结果是红色的。视频帧在整个视频长度上被均匀地采样。通过使用不同时间段的相似性来做出预测，我们的方法能够定位更大范围的动作（黄色），并能够开发一个更通用的动作类模型，允许它定位到更多的动作实例（紫红色）。

　　CASL最初被设计用来监督中间特征表示，用于进行最终的class wise预测；也就是说，CASL的使用将出现在我们的图卷积层的输出上。在这里，我们将损失应用于φ的输出。也就是说，我们使用CASL来鼓励同一类的两个前景段a和b之间的边权重较高（而前景和背景段的边权重较低）。这将影响X的行的平均方式。它不直接监督学习到的权值矩阵W；W仍然可以自由地以不同的方式变换GX的行a和行b。从这个意义上说，我们的改进CASL(MCASL)，即在φ上应用CASL，是一个不那么刚性的损失施加，这在一个规则的全连接层中是不可能的。在第4.2.2节中，我们证明了这种选择在减少过拟合方面比直接监督中间特征表示更有效。

3.4.4最终损失

　　用于监督训练的最终损失是：

　　我们设定λ₁=λ₂=λ₃=1。设置这些超参数是为了确保训练中不会出现任何损失。

3.5.动作分类与定位

　　在测试期间，我们输入一个单个视频，并获得一个l×c向量输出Y。我们平均每个类的前k段，以得到一个视频级分类预测。

　　为了获得硬定位预测（视频片段分类），我们对置信度设定阈值，以忽略最低5%的预测范围。我们将分类为相同动作的时序连续时序段合并到单个检测中，并为其指定合并段的最大置信度。我们使用这些检测进行最终评估。

4.实验

　　我们将我们的方法与最新的弱监督时序动作定位方法进行比较。我们还分析了边缘稀疏性和不同损失的影响。最后，我们给出了定性和定量的结果，强调了我们基于图形的方法相对于传统方法的优势，传统方法没有明确地建模时序段之间的关系。

　　数据集我们展示了三个数据集的结果，其中THUMOS14和ActivityNet 1.2以前曾用于评估弱监督动作定位。

　　THUMOS14[15] 有20个类的时序标注，有200/211个未剪辑的验证/测试视频。每个视频包含20个类中的一个或多个，平均每个视频包含1.12个类。我们使用验证数据集进行训练，使用测试数据进行测试。

　　ActivityNet1.2[7] 包括4819个训练视频、2383个验证视频和2480个带有保留标签的测试视频。有100个动作类，平均每个视频有1.5个时序活动片段。我们使用训练视频作为训练数据，验证视频作为测试数据。

　　图4。（左）ActivityNet 1.2 val集合上的定位性能。（右）Charades上的定位性能。除“ours”以外的所有方法都受到严格监督

　　Charades[27]由9848个视频组成，其中7985个为训练视频，1863个为验证视频。这些视频的平均长度仅为30秒，其特点是在视觉上相似的室内环境中执行精细的动作，例如“把衣服放在某处”和“把衣服扔到某处”。视频平均有6.75个动作。我们使用从i3D网络中提取的特征，并在Charades[8]上进行微调。

　　实现细节 φ和我们的图层的输出都是1024。图层的输出通过ReLU非线性传递，然后将L2归一化，然后传递到线性分类层。我们在图和线性层之间使用0.5的辍学率。分类层的输出通过Tanh层，获得最终的类置信值。最终的Tanh非线性限制了类置信度分数的范围，因此一个−0.9的标准阈值可以应用于所有数据集。使用一个标准的阈值可以确保我们不会通过预测每个视频的整个持续时间来简单地提高具有较长动作的数据集的性能

　　虽然在我们的实验中没有遇到过，但图层矩阵乘法GX可能会遇到大型图的GPU内存限制。在训练时间期间，每个图的时间段数可以被限制，在测试时间期间，G和GX可以在CPU上离线计算，也可以在GPU上以更小的行块作为解决方案

　　我们以0.001的学习率与Adam[16]一起训练了250个epoch。在训练和测试期间，我们一次从一个视频的时序段构建G。

　　对于THUMOS14，我们使用32个视频的批量大小，并计算具有相同ground-truth类别标签的每对视频的CAS损失。对于更大的ActivityNet 1.2和Charades，我们使用256的批量大小。由于计算这一较大批量的每对视频的CAS损失会以指数方式增加所需的训练时序，因此我们将每批视频中的一半固定为具有随机选取的共同类的视频对。然后，仅计算成对视频的CAS损失。

4.1.与最新技术的比较

　　表1和图4（左）分别显示了THUMOS14和Activity 1.2上的弱监督时序动作定位结果，我们使用平均精度（mAP）来计算不同重叠阈值下的定位精度。重叠阈值用于确定ground-truth事件和对其预测之间所需的最小重叠，以将其最为true positive。

　　表1。Thumos'14测试集的定位性能。最后一列显示视频分类性能。星号表示该方法使用了其他标注。

　　对于THUMOS14，我们的方法在具有挑战性的重叠阈值（0.5）下优于所有以前的方法，其边缘超过3个mAP points。即使与STAR[35]相比，这种表现上的差距仍然存在。STAR[35]使用了额外的标注，即训练期间视频中动作发生的次数。同样，在较高的重叠阈值下，我们在ActivityNet 1.2上的性能也优于以前的方法。为了证明独立于分类的定位能力，我们还计算了ground-truth行动类的mAP。这导致ActivityNet在0.7和0.9 IoU时的mAP为19.7%和8.2%，而THUMOS14在0.5 IoU时的mAP为63.9%。

　　图4（右）显示了我们的方法在Charades上的其他结果。虽然我们的方法在完全监督的环境下比最先进的方法低6.5个点，但它比其原始完全监督基线高3个点，为未来的方法提供了一个具有挑战性的弱监督基线。和之前的方法一样，我们在每个视频中报告25个等距时序点的mAP。

4.2.消融研究

　　接下来我们将研究三个损失的影响。特别是，我们研究了CASL的效果，表明使用基于图形的方法比不显式地将时序段聚集在一起的方法更有效。我们表明，改进后的CASL能够更好地防止过度装配。最后，我们检查了如何为top k多实例学习损失设置k。

4.2.1.图监督

　　我们首先分析了外观相似图中每个约束的重要性。外观相似性图使用L1损失来鼓励非均匀的边权重，以及一个在φ上的co-activaity相似性损失(CASL)来监督边缘聚类。表2显示了我们的消融研究的结果。L1损失对性能是最重要的，因为它在0.5重叠时是性能的三倍多。MCASL提供了下一个显著的改进：在0.1IoU阈值下的8.4mAP改进。虽然MCASL提高了基线模型的性能，但它在处理L1损失时最有用。这表明MCASL在使用稀疏图时更有用。

　　表2。在Thumos’14测试集上研究不同约束对我们的外观相似图的影响。

　　表3。使用带有CASL（最后两行）的图形比使用常规线性层（FC-CASL行）更有效，因为它显式地利用了时序段之间的关系。

4.2.2.Modified co-activaity相似度损失

　　接下来，我们分析了co-activaity相似性损失的影响。

　　我们开发了一个基线模型，该模型使用了无图卷积层的CASL损失，将其与基于图的方法进行对比。具体来说，该模型使用完全连接的层而不是图形层，但在其他方面是相同的。结果模型“FC-CASL 1024”有一个1024维的中间输出，就像我们的图形模型一样。我们还训练了一个更高容量的模型“FC-CASL 2048”，它有一个更大的中间层，具有2048维的输出，这与我们的可学习参数数量大致相同。这些基线模型与[20]中的模型非常相似，只是它们与我们的网络具有相同的非线性。这也相当于我们的网络没有学习到的相似性度量φ，而是一个固定的一致邻接矩阵G。此外，我们还开发了一个基线模型，该模型使用了原始的CAS损失“CASL-Graph”：我们没有像在模型中那样将CASL应用于φ的输出，而是将其应用于图形层的输出。因此，该基线与“FC-CASL”基线之间的唯一区别是图形层。

　　表3显示了结果。将CASL损失应用于图形层“CASL graph”的输出，会在FC-CASL”基线上产生∼3 mAP的提升。这表明了使用基于图形的方法进行弱监督动作定位相对于依靠传统线性层的优越性，此外，与“CASL图”相比，我们的完整模型的性能更好，表明我们ModifiedCASL监督输入特征聚类，而不是中间网络特征，是提供监督的更好方法。通过跟踪整个训练过程中的测试性能，我们发现“CASL图”在0.1 IoU时达到59 mAP的最高性能后，在训练的中途开始过度拟合。另一方面，“Ours MCASL”达到了更高的峰值性能，并在训练结束后保持其性能，因为它不会修改网络的实际中间特征表示，而只会修改输入I3D特征的聚集方式，以便进一步推断。

　　表4。将超参数d设置为与预期的操作持续时间对应，可以获得跨数据集的最佳性能。

4.2.3.MIL损失参数

　　如第3.4.1节所述，多实例学习损失的计算值超过了每个类的前k个预测的平均值。通过设置参数d，选择K为视频长度的1/8。虽然d=8对THU-MOS14很有效，但对于ActivityNet和Charades游戏来说并不理想。

　　一般来说，较小的d(或较大的k)会导致更长时间的检测，因为MIL损失在每次迭代中被反向传播到更长的时间段。表4显示了我们的系统在不同d值下的性能与具有相应持续时间活动的测试视频百分比的对比。产生最佳性能的d模拟了每个数据集的活动持续时间偏差；57%的活动网络测试视频的动作持续时间超过视频长度的一半，因此在训练期间设置d=1会得到最佳性能。在非常短的动作持续时间下，THUMOS14在大d或较短的预测中表现最好。在没有典型活动持续时间的先验知识，或者可以用于设置d的时间标记验证集的情况下，一个有用的策略是为每次训练迭代随机选择一个d值。最后一行显示了d从集合{1、2、4、8}中随机选择的结果。在平衡的活动持续时间下，“随机”是字谜的最佳策略，对于ActivityNet和THUMOS14的性能明显优于最糟糕的d设置，但大约是最佳水平的一半。不需要任何时间注释来估计d是未来研究的一个有趣的方向。

4.3. 定性结果

　　图3显示了一些定性结果。对于不同类别的视频，ground-truth、我们的结果和“FC-CASL”基线结果分别以蓝色、绿色和红色显示。使用图表可以让我们的网络定位更多重叠的动作（黄色）。这在第二行中最为明显，在第二行中，我们的检测没有分开，并且比基线更宽。我们的模型还能够定位不同动作的更多发生；在洋红中，我们展示了“FC-CASL”未检测到但通过我们的方法检测到的实例。我们在补充材料中包含了更多定性示例和故障案例。

4.4.可视化图

　　在图5中，我们展示了两个图的邻接矩阵，以及在这些图中形成高边团的节点。并非所有图像都是临时相邻的，而是从视频中的不同点拍摄的。图团被一个蓝色框包围。被认为与前景片段不同的片段被包围在一个红色框中。

　　在板球保龄球视频中，该图形从板球保龄球的各个部分形成团，从而使投球开始形成一个团，手臂摆动形成另一个团，依此类推。被认为与保龄球最不相似的部分显示为红色，显示击球，以及体育场的缩小视图；与保龄球动作几乎没有关联的片段。

　　第二个例子展示了一个视频，视频中有三个不同的派系。视频中，一名男子解释如何得分，然后反复演示。最大的集团把男人面对镜头说话的节点集中在一起。另一个派系包括足球点球前的动作——放球和起跑位置。最后一个集团将实际的足球点球混为一谈。

　　这些示例展示了图形可以聚集节点的一些有趣方式——它可以将动作类的子动作以及可能与动作类相关但不同于动作类的结构化活动聚集在一起。

5. 结论

　　我们提出了一种新的弱监督时序动作定位方法。在训练过程中，如果没有帧级标注，动作定位系统必须根据视频时序段之间的相似性和差异来推断动作类别。尽管如此，目前的方法并没有明确利用时序段之间的外观和运动相似性来进行预测。相比之下，我们的方法通过使用图卷积来明确使用时序段之间的相似关系。因此，它能够利用相似关系来开发每个动作类别的更好模型，从而能够更全面地定位动作。我们在Thumos'14和ActivityNet 1.2上推广了弱监督动作定位的最新技术，并在Charades上展示了第一个结果。我们从数量和质量上证明，不使用图相似性的基线方法的性能较差。最后，我们通过烧蚀研究证明了我们系统中每个组件的重要性，并分析了我们方法的弱点。

posted @ 2022-04-25 15:55 Lhiker 阅读(99) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

自由方向