2022 年 5月随笔档案 - 高峰OUC

【CVPR2022 oral】MixFormer: Mixing Features across Windows and Dimensions

摘要：论文：https://arxiv.org/pdf/2204.02557.pdf 代码：https://github.com/PaddlePaddle/PaddleClas 论文作者谌强在ReadPaper网站上有解读，推荐大家阅读：https://readpaper.com/paper/669120 阅读全文

posted @ 2022-05-14 18:58 高峰OUC 阅读(480) 评论(0) 推荐(0) 编辑

【ARXIV2204】Vision Transformers for Single Image Dehazing

摘要：论文：https://arxiv.org/abs/2204.03883 代码：https://github.com/IDKiro/DehazeFormer 1、研究动机作者提出了 DehazeFormer 用于图像去雾，灵感来自Swin Transformer ，论文中有趣的地方在于 reflec 阅读全文

posted @ 2022-05-14 14:25 高峰OUC 阅读(285) 评论(0) 推荐(0) 编辑

【ARXIV2203】CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers

摘要：1、研究动机当前的语义分割主要利用RGB图像，加入多源信息作为辅助（depth, Thermal等）可以有效提高语义分割的准确率，即融合多模态信息可以有效提高准确率。当前方法主要包括两种： Input fusion：如下图a所示，将RGB和D数据拼接在一起，使用一个网络提取特征。 Feature 阅读全文

posted @ 2022-05-14 13:41 高峰OUC 阅读(402) 评论(0) 推荐(1) 编辑

【ARXIV2203】SepViT: Separable Vision Transformer

摘要：1、Motivation 作者指出当前视觉Transformer 模型中的痛点在于：huge resource demands。为了解决这个问题，作者提出了 Separable Vision Transformer (SepViT)，整体架构如下图所示。包括下面三个贡献： Depthwise se 阅读全文

posted @ 2022-05-03 11:27 高峰OUC 阅读(209) 评论(0) 推荐(0) 编辑

【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention

摘要：论文：https://readpaper.com/paper/633541619879256064 代码：https://github.com/Chenglin-Yang/LVT 1、研究动机尽管ViT模型在各种视觉任务中效果显著，但是目前轻量级的ViT模型在局部区域效果不理想，作者认为：自注意力阅读全文

posted @ 2022-05-02 01:23 高峰OUC 阅读(368) 评论(0) 推荐(0) 编辑

OUC计算机科研狗

我们还有一种最后的自由，那就是选择自己的态度

05 2022 档案

公告

搜索

最新随笔

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜