利用协同嵌入模型超越多任务密集预测
利用协同嵌入模型超越多任务密集预测
5.7.1 利用协同嵌入模型超越多任务密集预测概述
多任务视觉场景理解旨在利用一组相关任务之间的关系,通过将它们嵌入到一个统一的网络中来同时解决这些问题。然而,从任务层面的角度来看,大多数现有方法都引起了两个主要问题:①不同任务缺乏独立于任务的对应关系;②忽视了各种任务之间明确的任务共识依赖关系。为了解决这些问题,提出了一种新的协同嵌入模型(SEM),它通过利用两种创新设计超越了多任务密集预测:任务内层次自适应模块和任务间EM交互模块。具体来说,构建的任务内模块整合了来自多个阶段的层次自适应密钥,能够以最佳的权衡有效地学习专门的视觉模式。此外,开发的任务间模块从各种任务之间的一组紧凑的互基中学习交互,这得益于期望最大化(EM)算法。
5.7.2 利用协同嵌入模型超越多任务密集预测技术分析
来自两个公共基准NYUD-v2和PASCAL上下文的大量实证证据表明,SEM在一系列指标上始终优于最先进的方法。
NYUD-v2数据集上的四个不同任务如图5-23所示。
图5-23 对于NYUD-v2数据集上的四个不同任务
在图5-23中,第一行显示真值(GT),第二行显示方法(改进的)的特征图(左)和预测(右),第三行显示多任务学习基线(MTLB)。直观地说,MTLB受到独立于任务的内部结构调查的影响,导致特征图混乱,单个任务的结果不令人满意。令人印象深刻的是,方法有效地缓解了上述局限性,从而从任务内和任务间的角度提高了性能,同时为多个场景理解任务实现了有竞争力的结果。
SEM的总体架构如图5-24所示。
图5-23 SEM的总体架构
在图5-23中,有两个主要的任务感知子模块:(a)任务内层次自适应模块,接收编码器生成的多级表示,并为解码器输出与任务无关的特征;(b)任务间EM交互模块,插入解码器级,用于学习任务共识相关性。
任务内层次自适应模块如图5-24所示。
图5-24 任务内层次自适应模块
在图5-24中,为了清楚起见,展示了两个阶段(即S=2)和每个阶段四个变形点(即
)的情况。
任务间EM交互模块的结构如图5-25所示。
图5-25 任务间EM交互模块的结构
NYUD-v2数据集上的四个任务如图5-26所示。
图5-26 NYUD-v2数据集上的四个任务
在图5-26中,对NYUD-v2数据集上的四个任务进行Ground Truth(GT)、SEM和TaskPrompter(TP)的视觉比较。
5.7.3 结论
介绍了一种基于Transformer的新型架构——协同嵌入模型(SEM),它克服了当前多任务密集预测方法的局限性。SEM提供了一种创新的任务内模块,该模块从分层编码器自适应地生成显著的键/值,以实现最佳权衡,以及一种基于任务间EM的交互,该交互迭代地从各种任务中学习一组紧凑的基,以确保鲁棒性。广泛的实验分析验证了SEM的有效性,在两个公共基准上证明了其与现有最先进方法的一致优势。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2023-12-22 《TVM编译器原理与实践》新书出版发行
2023-12-22 《TVM编译器原理与实践》新书推荐
2023-12-22 激光雷达相机校准器入门
2022-12-22 图像分割与GPU利用率
2021-12-22 自动驾驶参数分析
2020-12-22 如何使用TensorCores优化卷积
2020-12-22 如何在GPU上优化卷积