【五期杨志】CCF-A（CVPR'22）Balanced Multimodal Learning via On-the-fly Gradient Modulation

Peng, Xiaokang, et al. "Balanced Multimodal Learning via On-the-fly Gradient Modulation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

这篇论文针对多模态训练中存在的优化不平衡问题，提出了一种泛化增强的动态梯度调制的多模态学习策略。现有的解决方法是再额外训练单模态模型，多模态模型的梯度调整会参考单模态的模型，但这样会增加训练代价，以及不易控制调整的时间和幅度。作者从不同模态对应模型的优化进程出发，根据模态间的效果差异自适应地调制梯度，并结合高斯噪声的泛化性增强能力，从而促进多模态信息的有效利用。

本文的优点在于可以灵活地嵌入现有的多模态模型和融合方法中，因为它不是针对某一种或某一类多模态模型的优化，而是可以对广泛使用的多模态融合框架进行优化，具有较强适用性的；并且简单有效，它不需要额外的训练代价，就能优于其他需要高训练代价的优化方法。

我认为这篇论文主要是提出了一个比较新的解决思路，从训练模型时的底层出发，通过调节梯度来控制不同模态的训练进程，以达到一个平衡训练的目的。也可以把这篇论文当作一个基础的框架，后续可以在这个框架上进行很多改动，或者定制化，比如应用于三模态时，调节的计算和策略做出一些相应的改变是否也可以，以及在增加噪声时，添加其他的噪声是不是也可以。

2023年1月13日

posted @ 2023-01-13 15:51 方班隐私保护小组阅读(102) 评论(0) 编辑收藏举报

刷新页面返回顶部

方班隐私保护小组

【五期杨志】CCF-A（CVPR'22）Balanced Multimodal Learning via On-the-fly Gradient Modulation

公告