利用协同嵌入模型超越多任务密集预测

5.7.1 利用协同嵌入模型超越多任务密集预测概述

多任务视觉场景理解旨在利用一组相关任务之间的关系，通过将它们嵌入到一个统一的网络中来同时解决这些问题。然而，从任务层面的角度来看，大多数现有方法都引起了两个主要问题：①不同任务缺乏独立于任务的对应关系；②忽视了各种任务之间明确的任务共识依赖关系。为了解决这些问题，提出了一种新的协同嵌入模型（SEM），它通过利用两种创新设计超越了多任务密集预测：任务内层次自适应模块和任务间EM交互模块。具体来说，构建的任务内模块整合了来自多个阶段的层次自适应密钥，能够以最佳的权衡有效地学习专门的视觉模式。此外，开发的任务间模块从各种任务之间的一组紧凑的互基中学习交互，这得益于期望最大化（EM）算法。

5.7.2 利用协同嵌入模型超越多任务密集预测技术分析

来自两个公共基准NYUD-v2和PASCAL上下文的大量实证证据表明，SEM在一系列指标上始终优于最先进的方法。

NYUD-v2数据集上的四个不同任务如图5-23所示。

图5-23 对于NYUD-v2数据集上的四个不同任务

在图5-23中，第一行显示真值（GT），第二行显示方法（改进的）的特征图（左）和预测（右），第三行显示多任务学习基线（MTLB）。直观地说，MTLB受到独立于任务的内部结构调查的影响，导致特征图混乱，单个任务的结果不令人满意。令人印象深刻的是，方法有效地缓解了上述局限性，从而从任务内和任务间的角度提高了性能，同时为多个场景理解任务实现了有竞争力的结果。

SEM的总体架构如图5-24所示。

图5-23 SEM的总体架构

在图5-23中，有两个主要的任务感知子模块：（a）任务内层次自适应模块，接收编码器生成的多级表示，并为解码器输出与任务无关的特征；（b）任务间EM交互模块，

插入解码器级，用于学习任务共识相关性。

任务内层次自适应模块如图5-24所示。

图5-24 任务内层次自适应模块

在图5-24中，为了清楚起见，展示了两个阶段（即S=2）和每个阶段四个变形点（即

）的情况。

任务间EM交互模块的结构如图5-25所示。

图5-25 任务间EM交互模块的结构

NYUD-v2数据集上的四个任务如图5-26所示。

图5-26 NYUD-v2数据集上的四个任务

在图5-26中，对NYUD-v2数据集上的四个任务进行Ground Truth（GT）、SEM和TaskPrompter（TP）的视觉比较。

5.7.3 结论

介绍了一种基于Transformer的新型架构——协同嵌入模型（SEM），它克服了当前多任务密集预测方法的局限性。SEM提供了一种创新的任务内模块，该模块从分层编码器自适应地生成显著的键/值，以实现最佳权衡，以及一种基于任务间EM的交互，该交互迭代地从各种任务中学习一组紧凑的基，以确保鲁棒性。广泛的实验分析验证了SEM的有效性，在两个公共基准上证明了其与现有最先进方法的一致优势。