【五期杨志】CCF-A(NeurIPS'20) Self-supervised Multimodal Versatile Networks
这篇论文针对如何更有效的解决多模态学习面临的诸多挑战,如依赖大规模标记且完整的数据、兼容不同模态的特殊性、适用泛化性比较差等问题。作者的解决方案是设计了一个自监督多模态多功能网络(MMV),保证了不同模态的特殊性的同时且易于比较。作者引入了网络通缩方法使视频网络可以有效地应用图像。通过实验对比声称实现了自监督多模态学习的最新性能,缩小了与监督多模态学习最新性能之间的差距。Alayrac J B, Recasens A, Schneider R, et al. Self-supervised multimodal versatile networks[J]. Advances in Neural Information Processing Systems, 2020, 33: 25-37.
这篇论文的优势在于将不同模态嵌入到向量空间中,只需要简单的点积就可以进行模态比较建立起联系,通过恰当的组合,不仅保证了模态间的独立性,也保证了视觉和音频是细粒度、语言是粗粒度的特殊性。并借鉴对比学习的思想来对齐视觉音频和视觉文本,是一种简单而有效的自监督训练策略。本文所使用的S3D-G和TSM都是将空间域和时间域分离进行卷积的网络,这样只需要通过在时间维度上缩小网络,从而不需要任何调整,就可以用于图像上,非常巧妙。
但这篇论文中的MMV网络是通过视觉模态建立起音频模态和语言模态之间的联系,如果输入的训练数据中缺少视觉模态,那么模型就无法正常启动训练。另外,网络通缩后的网络仍需要通过图像数据进行训练寻找恰当的参数,这同样也增加了训练成本,并且其准确率也低于静态视频方法,该网络通缩方法是否真正意义上更有效还有待实践。
2022年10月31日