DAY 04
论文:CMX Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers
主要内容:探索四种多模态感知数据X(Depth/Thermal/Polarization/Event)组合中的RGB-X语义分割,提出一种语义分割框架CMX,其中包含cross-modal feature rectification modules和feature fusion modules两个模块。
目前主要的两种图像信息融合方式:a)input fusion ,b)feature fusion
二者通常是为特定的模式(如深度)定制的,在不同的多模态场景中不能很好地工作,很难扩展到其他模式组合,c)是本文中的信息融合框架。
CM-FRM:跨模态特征校准模块,通过结合其他模态的特征,在空间(spatial)和通道(channel)维度上校准当前模态的特征;
FFM:特征融合模块,分为阶段一(信息交换阶段)以及阶段二(融合阶段),使用交叉注意力机制构建,在全局上增强两种模态的特征。