05 2022 档案
摘要:论文:https://arxiv.org/pdf/2204.02557.pdf 代码:https://github.com/PaddlePaddle/PaddleClas 论文作者谌强在ReadPaper网站上有解读,推荐大家阅读:https://readpaper.com/paper/669120
阅读全文
摘要:论文:https://arxiv.org/abs/2204.03883 代码:https://github.com/IDKiro/DehazeFormer 1、研究动机 作者提出了 DehazeFormer 用于图像去雾,灵感来自Swin Transformer ,论文中有趣的地方在于 reflec
阅读全文
摘要:1、研究动机 当前的语义分割主要利用RGB图像,加入多源信息作为辅助(depth, Thermal等)可以有效提高语义分割的准确率,即融合多模态信息可以有效提高准确率。当前方法主要包括两种: Input fusion: 如下图a所示,将RGB和D数据拼接在一起,使用一个网络提取特征。 Feature
阅读全文
摘要:1、Motivation 作者指出当前视觉Transformer 模型中的痛点在于:huge resource demands。为了解决这个问题,作者提出了 Separable Vision Transformer (SepViT),整体架构如下图所示。 包括下面三个贡献: Depthwise se
阅读全文
摘要:论文:https://readpaper.com/paper/633541619879256064 代码:https://github.com/Chenglin-Yang/LVT 1、研究动机 尽管ViT模型在各种视觉任务中效果显著,但是目前轻量级的ViT模型在局部区域效果不理想,作者认为:自注意力
阅读全文