图 2 说明了所提出的 NestedFormer 的概览,它由三个组件组成:1)多个编码器,用于获得不同模态的多尺度表示,2)NMaFA 融合模块,用于探索多模态高级嵌入内和之间的相关特征,以及 3)门控策略,用于选择性地将模态敏感的低分辨率特征传输到解码器。