Boosting Weakly-Supervised Temporal Action Localization with Text Information
摘要
由于缺乏时间标注,当前的弱监督时间动作定位方法通常陷入over-complete或不完全定位。在本文中,我们旨在从两个方面来利用文本信息来提升WTAL,即:(a)判别目标,扩大类间差异,从而减少over-complete;(b)生成目标,增强类内完整性,从而找到更完整的时间边界。针对判别目标,提出了文本段挖掘(TSM)机制,该机制基于动作类标签构建文本描述,并将文本作为查询挖掘所有与类相关的片段。在没有动作的时间标注的情况下,TSM将文本查询与数据集中的整个视频进行比较,以挖掘最佳匹配的片段,同时忽略不相关的片段。由于不同类别视频的子动作是共享的,单纯应用TSM过于严格,忽略了与语义相关的片段,导致定位不完全。我们进一步介绍了一个名为视频文本语言补全(VLC)的生成目标,它专注于视频中所有与语义相关的片段来补全文本句子。我们在THUMOS14和ActivityNet1.3上实现了最先进的性能。令人惊讶的是,我们还发现我们提出的方法可以无缝地应用于现有方法,并以明显的幅度提高它们的性能。
1.介绍
时间动作定位试图在时间上定位未修剪视频中感兴趣的动作实例。虽然目前的全监督时间动作定位方法[5,26,42,51]已经取得了显著的进展,但是需要耗时和劳动密集型的帧级注释。为了降低标注成本,弱监督时序动作定位(WTAL)方法[15,22,32,35]最近得到了越来越多的关注,该方法只需要高效的视频级注释。
图1所示。我们提出的框架与当前WTAL方法的比较。(a)现有WTAL方法的常见故障。(b)现有WTAL模型的流程。(c)拟议的文本片段挖掘和视频文本语言补全框架,其中颜色的深度表示片段和文本之间的相关程度。
只有视频级别的监督,现有的WTAL方法[15,22,35,45]一般利用视频信息来训练分类器,该分类器用于生成一系列类logits或预测,称为时序类激活图(temporal class activation map, T-CAM)。虽然已经取得了显著的改进,但目前的方法仍然存在两个问题,即不完全定位和over-complete定位。如图1(a)所示,一些判别性较低的子动作可能被忽略,而一些有助于分类的背景片段可能被误分类为动作,导致定位不完全和over-complete。
与目前仅利用视频信息的方法不同,本文旨在从两个方面探索文本信息对WTAL的改进:(a)判别的目标是扩大类间差异,从而减少over-complete;(b)生成目标,增强类内完整性,从而找到更完整的时间边界。为了实现判别目标,我们提出了一种文本片段挖掘(TSM)机制,其中动作标签文本可以用作查询来挖掘视频中所有相关的片段。具体来说,我们首先使用提示模板将类标签信息合并到文本查询中。在没有时间标注的情况下,TSM需要将文本查询与整个数据集中不同视频的所有片段进行比较,如图1(c)所示。在比较过程中,将挖掘与文本查询最匹配的片段,而忽略其他不相关的片段,这类似于“匹配过滤器”[43,50]。这样,所有视频中具有相同类的片段和文本查询就会被拉得很近,而把其他的推得很远,从而增强了类间的差异。
对于不同类别的视频,有一些共同的子动作,例如“跳高”和“跳远”视频中都存在子动作“接近”。仅仅使用TSM过于严格,忽略了语义相关的片段,导致定位不完整,例如忽略了“Approach”片段。为了克服这一问题,我们进一步引入了一个名为视频文本语言补全(VLC)的生成目标,该目标专注于所有与语义相关的片段来补全文本句子。首先,我们为视频的动作标签构建一个描述句子,并屏蔽句子中的关键动作词,如图2所示。然后设计注意力机制,尽可能完整地收集语义相关片段,通过语言重构器预测被屏蔽的动作文本,增强类内完整性。通过自监督约束将TSM和VLC相结合,我们的方法在两个流行的基准上达到了最新的水平,即THUMOS14[1]和ActivityNet1.3[1]。此外,我们还发现我们提出的方法可以应用于现有的方法,并以明显的幅度提高它们的性能。
我们的贡献可以概括为三个方面:(a)据我们所知,我们是第一个利用文本信息来提高WTAL的人。我们还证明,我们的方法可以很容易地扩展到现有的最先进的方法,并提高它们的性能。(b)为了充分利用文本信息,我们设计了两个目标:判别目标力图扩大类间差异,从而减少过全;而生成目标则是增强类间的完整性,从而找到更完整的时间边界。(c)大量实验表明,我们的方法在两个公共数据集上优于现有方法,全面的消融研究揭示了所提出目标的有效性。
2.相关工作
弱监督时间动作定位。弱监督的时间动作定位只需要视频级别的标签。由于缺乏精确的边界标签,大多数先进的WTAL方法[15,16,29,35]都属于按分类定位的流程来解决WTAL任务。基于擦除的方法[29,40,48,54]精心设计了对抗性擦除策略,通过擦除最具区别性的区域来找到许多判别度较低的区域。基于度量学习的方法[12,30,33,35]利用中心损失或三重损失来减少类内差异,同时增加类间差异。此外,基于背景片段抑制的方法[16,22,23]旨在通过设置额外的背景类来学习背景抑制权值,将动作片段从背景片段中分离出来。一些基于伪标签的方法[15,28,49]利用视频信息生成伪标签来提高T-CAMs的质量。此外,lee等人[21]使用视频中的音频作为辅助信息。现有的方法可以采用上述一种或多种策略来提高T-CAM质量和提高定位性能。然而,尽管这些方法取得了成功,但上述策略只利用了视频信息,并没有充分挖掘文本形式的类别标签中封装的语义信息。在本文中,我们设计了一个新的框架,包括两个目标,即文本片段挖掘和视频文本语言补全,以利用动作标签文本信息提高WTAL。
Self-Supervised学习。自监督学习利用未标记的数据进行学习,使模型从数据中学习内在信息。目前,已经提出了几种利用自监督学习策略在缺乏完整标注数据的情况下学习更好表示的方法。例如Gong等[8]提出了自监督等变变换一致性约束来实现自监督动作定位。TSCN[49]和UGCT[47]利用RGB和光流视频特征进行交叉监督,提高WTAL的性能。Su等[41]利用时间多分辨率信息生成伪标签,以更好地进行表征学习。VLC模型倾向于关注与动作文本相关的所有视频片段,以实现文本的完整性,这可以用来缓解TSM模型中对重要片段的过度注意力。在本文中,我们利用了标签文本信息重构一个VLC模型,并在TSM和VLC模型之间设计一个自监督约束,以获得更完整的定位结果。
图2。提出的框架示意图。在这项工作中,文本片段挖掘目标使用动作标签文本作为查询来挖掘视频中语义相关的片段,以实现动作定位。此外,语言补全目标是尽可能全面地关注视频中与动作标签文本相关的区域,补全被掩蔽的关键词,并以自监督的方式缓解匹配策略过度关注最相关的片段而导致的定位错误。
视觉语言模型。近年来,一系列关于视觉与语言交互的研究成果越来越受到注意力,如视觉语言预训练[18,38]、视频字幕[44]、视频接地[6,31,52]、视频问答[24]等。然而,如何在WTAL任务中充分利用封装在动作标签文本中的信息,目前还没有研究。在本文中,我们设计了一个新的框架来探索利用动作标签的文本信息来提升WTAL任务。该框架通过将判别目标TSM和生成性目标VLC相结合,实现了间接利用文本信息来增强WTAL。
3.提出的方法
3.1.总体架构
问题公式化。在WTAL中,我们有一组N个未修剪的视频,定义为{Vj}Nj=1,所有的视频都有相应的视频级动作类别标签{yj}Nj=1。通常,标签yj被离散成一个二值向量,表示视频Vj中每一类动作的存在/不存在。每个视频V包含一组片段:V = {Vt}Tt=1,其中T为视频中片段的个数。一般将T片段输入预训练好的3D CNN模型[2]中,提取RGB特征Xr∈RT×1024和光流视频特征Xf∈RT×1024。在推理过程中,我们预测输入视频的一系列动作{ci,si,ei, confi},其中ci为动作类别,si和ei表示开始和结束时间,confi为置信度分数。
概述。所提出的整体框架如图2所示,该框架利用动作标签的文本信息,从文本段挖掘(TSM)和视频文本语言补全(VLC)两个方面提升WTAL。对于3.2节中的TSM,首先将RGB和Flow视频特征Xr和Xf输入到由卷积层组成的视频嵌入模块中,生成视频特征嵌入。然后,我们通过提示模板构建动作标签的文本描述,并根据文本编码器的描述生成文本查询。然后在视频-文本匹配模块中,TSM将文本查询与视频的所有片段进行比较,生成查询响应,以挖掘语义相关的视频片段。此外,我们为每个视频片段生成注意力权重,以进一步抑制背景片段对文本查询的响应。对于3.3节中的VLC,首先将提取的视频特征Xr和Xf送入全连接层,得到视频特征嵌入。然后,我们为视频的动作标签构建一个描述句子,并屏蔽句子中的关键动作词。然后,设计了一种注意力机制,通过语言重构器收集语义相关的片段来预测被屏蔽的动作词。最后,在第3.4节中,我们通过在TSM和VLC之间施加自监督约束,将两者结合起来,以获得更准确和完整的定位结果。
3.2.文本段挖掘
在本节中,我们将介绍文本段挖掘目标(TSM),以充分利用封装在动作标签文本中的信息。具体来说,TSM由视频嵌入模块、文本嵌入模块和视频文本特征匹配模块组成。
视频嵌入模块。与其他WTAL模型类似,视频嵌入模块由两个1D卷积组成,然后是RelU和Dropout层。我们使用类似[11]的策略将RGB和Flow特征融合,得到视频特征X∈RT ×2048作为视频嵌入模块的输入。则可以由X = emb(X)得到相应的视频特征嵌入Xe∈RT×2048,其中emb(·)表示视频嵌入模块。此外,根据前人的研究[11,16],我们利用注意力机制对每个视频片段Vj产生注意力权重attm∈RT ×1,
其中A(·)为由多个卷积层组成的注意力机制,σ(·)为sigmoid函数。
文本嵌入模块。文本嵌入模块旨在使用动作标签文本生成一系列查询,用于挖掘视频中与类别文本相关的片段。我们对C类动作标签文本采用category-specific可学习提示,形成文本嵌入模块Lq的输入:
其中Ls表示随机初始化的[START]token,Lp表示长度为Np的可学习文本上下文,Le表示GloVe[36]生成的动作标签文本特征嵌入。此外,第C + 1个额外的背景类嵌入被初始化为0。
然后使用Transformer编码器trans(·)作为文本嵌入模块来生成文本查询。具体来说,类文本查询Xq可以由Xq = trans(Lq)得到,其中Xq∈R(C+1)×2048。
视频文本特征匹配。视频文本特征匹配模块用于匹配与语义相关的文本查询和视频片段特征。
具体来说,我们对视频嵌入特征Xe与文本查询Xq进行内积运算,生成段级视频文本相似矩阵S∈RTx(C+1)。
此外,按照背景抑制的方法[11,16,22],我们也使用注意力权重attm来抑制背景片段对动作文本的响应。背景抑制的段级匹配结果∈RT ×C+1可通过= attm * S得到,其中“*”在本文中表示元素级乘法。
最后,与目前的方法相似[30,35],我们也使用top-k多示例学习来计算匹配损失。具体来说,我们计算特定类别文本查询对应的时间维度上top-k相似度的平均值作为视频级视频-文本相似度。
对于第j个动作类别,视频级相似度vj 和分别由S和生成:
其中l是包含与第j个文本查询相似度最高的top-k片段索引的集合,k是选中的片段个数。然后,我们将softmax应用于vj 和来生成视频级相似度分数pj和。
我们鼓励视频文本类别的positive得分匹配接近1,negative得分接近0,训练TSM目标;
其中yj 和是视频文本匹配的标签。此外,额外的第C + 1背景类在中为0,在yj 中为1。
此外,在本工作中,按照[11,16]的方法,我们还采用了co-activity损失[30,35]、归一化损失[22,23]和引导损失[11,16]来训练TSM模型。由于它们不是本工作的主要贡献,我们在本文中不详细阐述它们。
3.3.视频文本语言补全
视频文本语言补全(video -text Language Completion, VLC)的目标是通过尽可能全面地关注与文本相关的视频片段,补全视频描述中的被屏蔽关键词。提出的VLC也包含一个视频嵌入模块和一个文本嵌入模块。利用transformer重构器实现多模态交互,补全原始文本描述。
视频嵌入模块。给定第3.2节中描述的原始视频特征X∈RT ×2048 ,我们可以通过VLC模块的全连接层得到相应视频特征嵌入Xv∈RT×512。
为了挖掘文本语义相关视频的positive区域,本文提出的补全模型特别设计了与3.2节结构相同的注意力机制。VLC的注意力权重attr ∈T ×1可由下式求得:
其中A(·)表示由多个卷积层组成的注意力机制,σ(·)表示sigmoid函数。
文本嵌入模块。WTAL任务的数据集只提供动作视频及其动作标签,不包含描述相应视频的任何句子。因此,我们首先使用提示模板“a video of [CLS]”和动作标签文本来构建视频的描述句。然后,我们对描述句的关键动作词进行掩码,用GloVe[36]和一个全连接层对掩码句进行嵌入,得到句子特征嵌入∈RM×512,其中M为句子长度。
Transformer重构器。在视频文本语言补全模型中,使用transformer重构器来补全被屏蔽的描述句子。首先,按照[27]的方法,我们随机屏蔽句子中1/3的单词作为替代描述句子,从而产生动作标签文本高概率掩码。然后,利用transformer的编码器得到前景视频特征F∈RT×512:
其中E(·,·)为transformer编码器,δ(·)为softmax函数,Wq、Wk、Wv∈R512×512为可学习参数,Dh = 512为Xv的特征维度
利用transformer的解码器获得多模态表示H∈RM×512来重构被掩码句子:
其中D(·,·,·)为transformer解码器,Wqd,Wkd,Wvd∈R512×512为可学习参数。
最后,词汇表中第i个单词wi的概率分布P∈RM×Nv可以通过以下方式得到:
其中FC(·)为全连接层,δ(·)为softmax函数,Nv 为词汇表大小。
最终的VLC损失函数可表示为:
为了进一步改善与文本语义相关的挖掘到的视频positive区域,我们还在补全模型中采用了对比损失[53]。具体来说,通过注意力权值attr挖掘的positive区域应该比整个视频和那些由1−attr挖掘的负区域更能与句子兼容。因此,按照式6-9,我们可以得到补全损失Lerec和Lnrec,其中transformer使用的注意力权值attr分别被1和1−att替换。
最后,对比损失Lc表示为:
其中γ1和γ2 是超参数。
3.4.自监督一致性约束
TSM中使用的匹配策略倾向于关注与文本更匹配的视频片段,而排除其他与文本无关的片段,因为它们可能导致定位错误。另一方面,VLC倾向于关注所有与动作文本相关的视频clips,以实现描述补全。因此,我们在判别目标TSM和生成性目标VLC这两个目标的关注之间施加自监督约束,以缓解TSM对与语义最相关的片段的过度注意。一致性约束损失Lcon可由下式求得:
其中ψ(·)表示截断输入梯度的函数,MSE(·,·)表示均方误差损失。
一致性约束损失可以鼓励TSM训练的attm和VLC训练的attr专注于视频中的同一动作区域。这样可以减轻由于匹配策略过分注意力最相关片段而产生的定位误差。此外,动作标签文本的信息可以通过注意力机制间接地从视频文本语言补全模型传递到WTAL模型。
3.5.模型训练和推理
优化的过程。综合考虑上述所有目标,我们整个框架的最终目标函数达到:
其中α, β, λ是平衡这四个损失项的超参数。
推理模型。在测试阶段,我们遵循[11,16]的过程。首先,我们选择那些视频级别类别得分高于阈值的类来生成提案。然后,对于所选择的动作类,通过对注意力权值进行阈值化,选择的连续分量,得到剩下段的class-agnostic的动作建议,得到的第i个候选动作建议可以表示为{ci, si, ei,confi}。对于置信分数confi,我们遵循AutoLoc[39],通过¯s计算每个动作提案的内外得分。最后,我们使用软非最大值抑制去除重叠的提案。
表1。THUMOS14数据集中不同方法的实验结果。
4.实验
4.1.数据集
THUMOS14。THUMOS14[17]数据集包含200个验证视频和213个测试视频。数据集中总共有20个类别,平均每个视频有15.5个动作。遵循与[14,33 -35]相同的设置,我们采用200个验证视频进行训练,213个测试视频进行测试。
ActivityNet。ActivityNet[1]数据集为时间动作定位提供了更大的基准。训练视频10024个,验证视频4926个,测试视频5044个,动作类别200个。按照[13 -15,47]中的实验设置,我们采用所有的训练视频来训练我们的模型,并在所有的测试视频中评估我们提出的方法。
4.2.实现细节
评价指标。我们使用平均精度(mAP)来评估所提出的动作定位方法。如果预测建议的动作类别被正确预测,并且与地面真实片段(基于IoU阈值)显著重叠,则认为该预测建议是正确的。我们采用ActivityNet的官方评价代码来评价我们的方法[1]。
特征提取器。根据之前的工作[4,30,33,35],使用TV-L1算法[46]生成光流图,我们使用I3D网络[2]在Kinetics数据集[19]在不微调的情况下提取RGB和光流特征。
表2。不同方法在Activi- tyNet1.3数据集中的实验结果。
训练设置。我们使用Adam[20],学习率为0.0005,权重衰减为0.001来优化我们的模型,在THUMOS14上进行大约5000次迭代。对于Ac- tivityNet1.3,学习率为0.00003,优化我们的模型约5万次迭代。对于Lc中的超参数,我们将γ设为1 0.1,γ设2 为0.2。此外,对于超参数α、β、λ, 我们分别在THU- MOS14上设置为1.0、1.0、1.5,在ActivityNet1.3上设置为1.0、1.0、0.25。我们的模型由PyTorch 1.8实现,并在Ubuntu 18.04平台上进行训练。超参数灵敏度分析可以在补充资料中找到。
4.3.与SOTA的比较
在本节中,我们将提出的方法与最先进的弱监督方法进行比较。结果如表1和表2所示。对于THUMOS14数据集,所提出的框架明显优于当前最先进的WTAL方法,特别是在高IoU实验环境中。在重要的标准上:平均mAP(0.3:0.7),我们超过了最先进的方法[15]1.3%,甚至超过了一些完全监督的方法。对于更大的ActivityNet1.3数据集,我们的方法仍然比现有的最先进的弱监督方法[15]平均获得1.0%的map改进。
4.4.消融实验
各成分的有效性。提出的框架主要包含三个部分:(1)文本片段挖掘(TSM)模块,取代现有的仅使用视频信息的WTAL模型;(2)使用附加的视频-文本语言补体(VLC)以自监督的方式约束WTAL模型,记为Lrec + Lcon;(3)视频文本语言互补模型中的对比损失,记为Lc。
为了验证所提出框架中每个组件的有效性,我们进行了全面的消融
研究分析表3中的不同成分。具体来说,我们实现了所提出方法的四种变体如下:(1)“基线”:在TSM中使用卷积层作为分类器而不是视频文本匹配,并且仅使用视频信息来训练WTAL模型;(2)“Baseline +Lrec +Lcon”:使用附加的视频文本语言补体(VLC)以自监督的方式约束基线WTAL模型;(3)“Baseline +Lrec+Lcon+ Lc”:在视频文本语言互补模型中使用对比损失;(4)“TSM+Lrec + Lcon + Lc”:最终框架,在(3)的基础上,用提出的TSM替代基线WTAL模型;
表3.各组件在THUMOS14个数据集上的有效性。
通过对比“TSM +Lrec+Lcon+ Lc”和“Baseline +Lrec + Lcon + Lc”两种方法的性能,我们可以得出结论:文本段挖掘优于仅使用卷积分类器而不使用动作标签文本信息的一般WTAL模型,在THUMOS14数据集上的性能提高了0.9%。当我们逐步rec消除学习损失的测量并c 添加视频文本语言补全模型L+ L时,con 在所有实验设置下的性能都会逐渐下降。通过对比“Baseline + Lrec + Lcon”和“Baseline”两种方法,我们可以得出结论,本文提出的视频文本语言模型可以通过自我监督约束WTAL模型,并间接向WTAL模型传递文本信息,从而在THUMOS14数据集上提高1.0%的mAP性能。此外,对比“Baseline + Lrec + Lcon + Lc”和“Baseline + Lrec + Lcon”两种方法,也可以验证对比损失在VLC中的有效性。
此外,我们在THUMOS14上对帧级分类结果进行了评估。与基线相比,使用TSM模型后,假阳性率(FPR)从26.0%下降到23.8%,使用VLC模型后,假阴性率(FNR)从28.0%下降到26.9%。这表明TSM可以有效缓解背景片段被误分类为groundtruth动作的问题,从而有效缓解over-complete问题,而VLC可以有效缓解groundtruth动作片段被误分类为背景的问题,从而有效缓解不完全问题。
文本段挖掘模型中不同提示符的比较。我们比较了手工提示“a video of [CLS]”和可学习提示对文本段挖掘模型的影响,见表4。与文本段挖掘模型中的手工提示相比,可学习提示具有更好的性能。这是因为,通过使其可学习,通过使用反向传播直接优化上下文,文本上下文可以在下游视频文本匹配任务中实现更好的可转移性。
表4。在THUMOS14数据集上分类模型中不同提示的比较。
不同类型一致性约束损失的比较。我们还评估了不同类型的一致性约束的效果。具体来说,我们以不同的方式在VLC和TSM模型上实现了约束的五种变体:(1)“w/o Lcon”:不使用VLC模型,只使用TSM作为基线;(2)“Share”:不使用Liscon ,但VLC和TSM共享注意力模块的参数;(3)“KL”:使用Kullback Leibler散度[37]作为损失函数L;con(4con)“MAE”:使用Mean Absolute Error作为损失函数L;(5con)“MSE”:使用均方误差(Mean Square Error)作为损失L。
表5的结果表明,使用额外的视频文本补全模型来约束WTAL模型可以有效地提高定位性能,使用MSE作为一致性约束损失更为合适。
表5所示。与THUMOS14数据集上一致性约束损失类型的比较。
视频文本语言补全模型中不同类型语言重构器的比较。
我们比较了在补全模型中使用不同的提示模板生成动作描述对性能的影响。
为了验证附加视频文本语言补全模型的有效性,我们比较了不同类型的语言重构器对本地化结果的影响。具体来说,我们在表6中比较了三种不同的重构器Transformer、GRU[3]和LSTM[10]。此外,“w/o”仅代表所使用的TSM模型。如表6所示,我们可以得出结论,无论使用哪种语言重构器,视频文本语言补全模型都可以通过对TSM施加自监督约束来提高所提出框架的性能。此外,我们可以得出结论,Transformer结构更适合在我们的框架中用作语言重构器。
表6所示。THUMOS14数据集上视频文本语言补全模型中不同类型语言重构器的比较。
语言补全模型中不同提示模板生成的动作描述的比较。我们比较了语言补全模型中不同提示模板生成的动作描述对性能的影响,见表7。所有类型的提示模板的结果都可以优于现有的最先进的结果,如表1所示。这些结果表明,有必要使用视频文本语言补全模型来约束WTAL模型。
表7所示。在THUMOS14数据集上补全模型中不同提示符的比较。
将我们的框架整合到现有的方法中。所提出的方法可以很容易地扩展到现有的WTAL模型并提高其性能。为了验证所提框架的可扩展性,我们设计了三组实验,将所提框架扩展到现有方法上:(1)“+TSM”:使用所提TSM替换现有WTAL模型的卷积分类器;(2)“+VLC”:使用附加的VLC模型以自监督的方式约束WTAL模型;(3)“+TSM+VLC”:将我们框架的所有组件扩展到现有的WTAL模型。如表8所示,我们可以清楚地得出结论,所提出的TSM和VLC都可以大大提高现有两种方法的性能,验证了利用动作标签文本信息扩展WTAL模型的有效性。
表8所示。将我们的框架与THU- MOS14数据集上的现有方法集成。
4.5.定性分析
我们在图3中可视化了检测到的动作实例的一些示例。对于每个例子,上面一行代表视频的片段,下面四行依次是视频中动作的基本真相,基线模型生成的定位结果,文本片段挖掘生成的定位结果,以及我们最终框架生成的定位结果。从图中可以看出,将类别标注中的文本信息以直接和间接的方式引入到WTAL模型中,有助于生成更准确的定位结果,并在一定程度上抑制背景片段的响应。
图3。THUMOS14数据集上的两个预测示例。
5.结论
我们从文本段挖掘和视频文本语言补全两个方面引入了一个新的框架来利用文本信息来提高WTAL。在文本信息的帮助下,该方法可以专注于视频中与动作类别相关的区域,提高WTAL任务的性能。大量的实验表明,所提出的方法在两个流行的数据集上达到了最先进的性能,并且所提出的两个目标都可以直接扩展到现有的WTAL方法中以提高其性能。
限制。本工作的一个主要限制是我们必须同时训练文本段挖掘和视频文本语言补全模型,导致模型大小是原始大小的两倍。未来,我们将探索更高效的方式,充分利用标签中的文本信息来提升WTAL。