【五期杨志】CCF-A(CVPR'22)Balanced Multimodal Learning via On-the-fly Gradient Modulation
Peng, Xiaokang, et al. "Balanced Multimodal Learning via On-the-fly Gradient Modulation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
这篇论文针对多模态训练中存在的优化不平衡问题,提出了一种泛化增强的动态梯度调制的多模态学习策略。现有的解决方法是再额外训练单模态模型,多模态模型的梯度调整会参考单模态的模型,但这样会增加训练代价,以及不易控制调整的时间和幅度。作者从不同模态对应模型的优化进程出发,根据模态间的效果差异自适应地调制梯度,并结合高斯噪声的泛化性增强能力,从而促进多模态信息的有效利用。
本文的优点在于可以灵活地嵌入现有的多模态模型和融合方法中,因为它不是针对某一种或某一类多模态模型的优化,而是可以对广泛使用的多模态融合框架进行优化,具有较强适用性的;并且简单有效,它不需要额外的训练代价,就能优于其他需要高训练代价的优化方法。
我认为这篇论文主要是提出了一个比较新的解决思路,从训练模型时的底层出发,通过调节梯度来控制不同模态的训练进程,以达到一个平衡训练的目的。也可以把这篇论文当作一个基础的框架,后续可以在这个框架上进行很多改动,或者定制化,比如应用于三模态时,调节的计算和策略做出一些相应的改变是否也可以,以及在增加噪声时,添加其他的噪声是不是也可以。
2023年1月13日