【五期杨志】CCF-A(NeurIPS'20) Self-supervised Multimodal Versatile Networks

Alayrac J B, Recasens A, Schneider R, et al. Self-supervised multimodal versatile networks[J]. Advances in Neural Information Processing Systems, 2020, 33: 25-37.

这篇论文针对如何更有效的解决多模态学习面临的诸多挑战，如依赖大规模标记且完整的数据、兼容不同模态的特殊性、适用泛化性比较差等问题。作者的解决方案是设计了一个自监督多模态多功能网络（MMV），保证了不同模态的特殊性的同时且易于比较。作者引入了网络通缩方法使视频网络可以有效地应用图像。通过实验对比声称实现了自监督多模态学习的最新性能，缩小了与监督多模态学习最新性能之间的差距。
这篇论文的优势在于将不同模态嵌入到向量空间中，只需要简单的点积就可以进行模态比较建立起联系，通过恰当的组合，不仅保证了模态间的独立性，也保证了视觉和音频是细粒度、语言是粗粒度的特殊性。并借鉴对比学习的思想来对齐视觉音频和视觉文本，是一种简单而有效的自监督训练策略。本文所使用的S3D-G和TSM都是将空间域和时间域分离进行卷积的网络，这样只需要通过在时间维度上缩小网络，从而不需要任何调整，就可以用于图像上，非常巧妙。
但这篇论文中的MMV网络是通过视觉模态建立起音频模态和语言模态之间的联系，如果输入的训练数据中缺少视觉模态，那么模型就无法正常启动训练。另外，网络通缩后的网络仍需要通过图像数据进行训练寻找恰当的参数，这同样也增加了训练成本，并且其准确率也低于静态视频方法，该网络通缩方法是否真正意义上更有效还有待实践。

2022年10月31日

posted @ 2022-10-31 23:41 方班隐私保护小组阅读(93) 评论(0) 收藏举报

刷新页面返回顶部

方班隐私保护小组

【五期杨志】CCF-A(NeurIPS'20) Self-supervised Multimodal Versatile Networks

公告