【五期杨志】CCF-A(NeurIPS'21)VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

Akbari, Hassan, et al. "Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text." Advances in Neural Information Processing Systems 34 (2021): 24206-24221.

  这篇论文针对如何利用大规模、无标签的多模态数据赋能Transformer问题,提出了一个使用Transformer架构从无标签数据中学习多模态表示的框架。现有的Transformer架构大多是应用在单模态及监督训练中,从而忽略了现实中更丰富的多模态数据,限制了它的应用范围。作者先分别研究三个模态不同的Transformer,以及尝试了共享一个Transformer的方法,然后通过对比学习的方法建立起不同模态的联系,进行自监督训练。

  本文的优点在于作者在扩展中直接让三个模态共享同一个Transformer骨干网络,共享权重,经过实验验证,可以取得与使用不同模态骨干网络相似的结果,可以降低模型的复杂性,提高其泛化性。并提出了一个DeepToken方法,随机的将输入的视频和音频标记进行丢弃,从而降低了Transformer 的训练复杂度。

  本文的不足在于无法处理缺失视频模态的数据,因为其模态的联系对齐是靠视频模态进行的。并且DropToken中是随机丢弃的,虽然可以降低训练的复杂性,但也可能会降低精度和性能,比如丢弃一些比较重要的特征,是不是可以对这个随机丢弃做一个限制。

2022年12月16日


posted @ 2022-12-16 16:46  方班隐私保护小组  阅读(70)  评论(0编辑  收藏  举报