【五期杨志】CCF-A（NeurIPS'21）VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

Akbari, Hassan, et al. "Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text." Advances in Neural Information Processing Systems 34 (2021): 24206-24221.

这篇论文针对如何利用大规模、无标签的多模态数据赋能Transformer问题，提出了一个使用Transformer架构从无标签数据中学习多模态表示的框架。现有的Transformer架构大多是应用在单模态及监督训练中，从而忽略了现实中更丰富的多模态数据，限制了它的应用范围。作者先分别研究三个模态不同的Transformer，以及尝试了共享一个Transformer的方法，然后通过对比学习的方法建立起不同模态的联系，进行自监督训练。

本文的优点在于作者在扩展中直接让三个模态共享同一个Transformer骨干网络，共享权重，经过实验验证，可以取得与使用不同模态骨干网络相似的结果，可以降低模型的复杂性，提高其泛化性。并提出了一个DeepToken方法，随机的将输入的视频和音频标记进行丢弃，从而降低了Transformer 的训练复杂度。

本文的不足在于无法处理缺失视频模态的数据，因为其模态的联系对齐是靠视频模态进行的。并且DropToken中是随机丢弃的，虽然可以降低训练的复杂性，但也可能会降低精度和性能，比如丢弃一些比较重要的特征，是不是可以对这个随机丢弃做一个限制。

2022年12月16日

posted @ 2022-12-16 16:46 方班隐私保护小组阅读(108) 评论(0) 收藏举报

刷新页面返回顶部

方班隐私保护小组

【五期杨志】CCF-A（NeurIPS'21）VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

公告