随笔分类 - 论文推介
摘要:论文:https://arxiv.org/pdf/2408.04326 代码:https://github.com/BellyBeauty/MDSAM 论文的研究动机就是使用SAM来解决显著性检测(SOD)问题,主要有两个改进: 提出了Lightweight Multi-Scale Adapter,
阅读全文
摘要:> 论文:https://readpaper.com/paper/4728855966703960065 代码:https://github.com/ofsoundof/GRL-Image-Restoration 这个论文的代码地址叫GRL,意思是 Global, Regional, Local 的
阅读全文
摘要:论文:https://readpaper.com/paper/4736105248993591297 代码:https://github.com/cschenxiang/DRSformer Transformer 模型通常使用标准的 QKV 三件套进行计算,但是部分来自 K 的 token 与来自
阅读全文
摘要:【AAAI2023】Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Transformer-Based Method 代码:https://github.com/TaoWangzj/LLFormer 这个论文首先构
阅读全文
摘要:【TPAMI2023】Global Learnable Attention for Single Image Super-Resolution 代码:https://github.com/laoyangui/DLSN 这是来自福州大学的工作,提出一个有意思的观点:当前方法大多使用 non-local
阅读全文
摘要:论文:【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer 代码:https://github.com/dongbo811/AFFormer 这是来自阿里巴巴的工作,作者构建了一个轻量级的Trans
阅读全文
摘要:【ARIXV2209】Multi-Scale Attention Network for Single Image Super-Resolution 代码:https://github.com/icandle/MAN 这是来自南开大学的工作,将多尺度机制与大核注意机制结合,用于图像超分辨率。 202
阅读全文
摘要:【NeurIPS2022】Cross Aggregation Transformer for Image Restoration **研究动机:**当前方法 Transformer 方法把图像分成8x8的小块处理,the square window lacks inter-window intera
阅读全文
摘要:作者认为,交互复杂性是视觉识别一个重要特点。为此,作者通过复杂特征交互构建了一个纯卷积的网络 MogaNet 用于图像识别。MogaNet的整体框架如下图所示,架构和一般的 Transformer 网络非常类似,核心包括两个模块:spatial aggregation (取代注意力) 和 chann
阅读全文
摘要:【CVPR2022】Detecting Camouflaged Object in Frequency Domain 论文有一个非官方的实现:https://github.com/VisibleShadow/Implementation-of-Detecting-Camouflaged-Object-
阅读全文
摘要:【NeurIPS2022】ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer 这篇论文来自清华大学深圳研究生院和字节跳动。 从Swin开始,attention一般都包括局部 window
阅读全文
摘要:这个论文的核心贡献是提出了一种新的注意力机制 HiLo(High / Low frequency)。如下图所示,在上面部分,分配了 比例的 head 用于提取高频注意力,下面分配了 比例的 head 用于提取低频注意力。 高频注意力: 在2x2的窗口中计算 a
阅读全文
摘要:【ECCV2022】DaViT: Dual Attention Vision Transformers 代码:https://github.com/dingmyu/davit 这个论文想法很自然也容易想到。Transformer都是在处理 PxC 二维的数据,其中 P 是token 的数量,C是特征
阅读全文
摘要:【ARXIV2207】LightViT: Towards Light-Weight Convolution-Free Vision Transformers 论文地址:https://arxiv.org/abs/2207.05557 代码地址:https://github.com/hunto/Lig
阅读全文
摘要:1、Motivation 这个论文来自于清华大学鲁继文老师团队,核心是 attention 和 MLP-mixer 思想的结合。 建议用2分钟时间学习一下谷歌公司的 MLP-Mixer 「MLP-Mixer: An all-MLP Architecture for Vision」CVPR 2021
阅读全文
摘要:用5分钟时间学习一下谷歌公司的 MLP-Mixer 「MLP-Mixer: An all-MLP Architecture for Vision」CVPR 2021 CNN以及 attention 在视觉任务上取得非常好的性能,但是我们真的需要这么复杂的网络结构吗?MLP 这种简单的结构是否也能够取
阅读全文
摘要:【ACMMM 2022】Depth-inspired Label Mining for Unsupervised RGB-D Salient Object Detection 代码:https://github.com/youngtboy/DLM 这篇论文主要是利用无监督的思想,来解决RGBD显著性
阅读全文
摘要:【ACMMM 2022】Learning Hierarchical Dynamics with Spatial Adjacency for Image Enhancement 代码:https://github.com/DongLiangSXU/HDM 该论文的研究动机:近年来动态网络非常流行,因此
阅读全文
摘要:【ACMMM2022】Structure-Inferred Bi-level Model for Underwater Image Enhancement 代码:https://github.com/IntegralCoCo/SIBM (暂未开源) 该论文提出了一个 Structural-Infer
阅读全文
摘要:【NeurIPS 2022】SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 代码:https://github.com/Visual-Attention-Network/SegNeXt 1、研究
阅读全文