随笔分类 - 论文学习
Achieving a Better Stability-Plasticity Trade-off via Auxiliary Networks in Continual Learning论文阅读笔记
摘要:## 摘要 连续学习过程中的稳定性-可塑性权衡是一个重要的问题。作者提出了Auxiliary Network Continual Learning (ANCL),通过auxiliary network提高了模型的可塑性。 ## 方法 ### The Formulation of Auxiliary
阅读全文
摘要:## 摘要 目前已有的连续语义分割方法通常基于卷积神经网络,需要添加额外的卷积层来分辨新类别,且在蒸馏特征时没有对属于旧类别/新类别的区域加以区分。为此,作者提出了基于Transformer的网络incrementer,在学习新类别时只需要往decoder中加入对应的token。同时,作者还提出了对
阅读全文
摘要:** ## 摘要 本文提出了一个用于开放词汇语义分割的新框架SAN,将语义分割任务建模为区域识别问题,提取mask proposals并使用CLIP对mask进行识别。SAN可以重新利用CLIP的特征,因此其本身可以非常轻量;同时网络可以端到端地进行训练,从而使SAN适应冻结的CLIP模型。本文方法
阅读全文
摘要:## 摘要 作者提出了一种新的基于Transformer的目标检测模型DETR,将检测视为集合预测问题,无需进行nms以及anchor generation等操作。同时,对模型进行简单的修改就可以应用到全景分割任务中。 ## 方法 ### Object detection set predictio
阅读全文
摘要:这篇文章的arxiv版看着太折磨了,可以直接看openreview上作者修改后的版本https://openreview.net/forum?id=zWudXc9343以及rebuttal帮助理解。 ## 摘要 本文提出了一个新任务:开放词汇全景分割,同时作者给出了基于ViT CLIP骨干的base
阅读全文
摘要:## 摘要 作者提出了CLIP-S4,借助自监督像素表示学习和V-L模型实现各种语义分割任务,不需要使用任何像素级别标注以及未知类的信息。作者首先通过对图像的不同增强视角进行像素-分割对比学习来学习像素嵌入。之后,为进一步改善像素嵌入并实现基于自然语言的语义分割,作者设计了由V-L模型指导的嵌入一致
阅读全文
摘要:摘要 目前的类激活图通常只激活区分度较高的目标区域,且会包含与目标相关的背景(文章中举例为如果要分割的是火车,轨道对分类也有一定的贡献,而轨道作为背景不应该被分割)。为解决这一问题,作者提出了一种基于CLIP的跨语言图像匹配框架CLIMS,引入自然语言作为监督信号,从而更准确、紧凑地激活目标区域。
阅读全文
摘要:摘要 作者提出了一种不依赖梯度的类激活图生成方法Score-CAM,其通过前向传播获取每一个激活图的权重。实验证明Score-CAM能在解释决策过程方面实现更好的视觉性能和公平性。 方法 不同于之前的方法,作者将置信度增量纳入重要性的计算。置信度增量定义如下: $c_i=f(X_b◦H_i)-f(X
阅读全文
摘要:摘要 文章提出了一种利用CLIP模型进行弱监督语义分割的新方法,称为CLIP-ES,它能够在不需要额外训练的情况下,仅使用图像级标签就能生成高质量的分割掩码。它通过对CLIP进行特殊设计来改进WSSS的三个阶段: 1)将softmax函数引入GradCAM,并利用CLIP的zero-shot能力抑制
阅读全文
摘要:摘要 现有的方法将零样本语义分割(Zero-shot semantic segmentation,ZS3)视为逐像素的zs分类,并且使用仅用文本预训练的模型来完成已知类到未知类的知识迁移,而文本图像预训练模型对于视觉任务有更大的潜力。同时,人类通常进行的是区域级的语义标注,因此,作者提出了一种新的范
阅读全文
摘要:MaskFormer代码理解 模型主体 代码全部放在/mask_former下面。进入到这个路径,首先发现有一个mask_former_model.py,打开可以发现这就是论文提出的MaskFormer主类所在的文件。先看forward函数的前面五行: def forward(self, batch
阅读全文
摘要:摘要 文章的贡献是借助MaskFormer设计了CoMFormer,从而完成对全景分割的连续学习,提出了基于mask的伪标签以对抗遗忘。 方法 基于MaskFormer,作者将分割视为对mask的分类。输出的形式等都与MaskFormer相同,模型结构也与MaskFormer基本一致。对于每一个st
阅读全文
摘要:作者的解读:https://www.zhihu.com/search?type=content&q=MaskFormer 摘要 现有的语义分割方法将分割视为逐像素的分类,本文提出了MaskFormer,把分割转化为预测一系列的mask以及为这些mask预测一个global类别,这样可以很方便地将语义
阅读全文
摘要:摘要 本文的主要贡献是提出了一种连续学习的方法L2P,可以自动学习提示(Prompt)一个预训练的模型,从而能够在学习一系列的任务的同时减轻灾难性遗忘,并且这个过程无需使用记忆回放等方法。本文的方法中提示是小的可学习的参数,最终目的是优化提示从而在保证可塑性的同时指导模型的预测以及明确地管理任务变量
阅读全文
摘要:第一节 在写作过程中添加引用。 把别人的话理解后重新表达,而不是简单的拷贝后修改。 引用的时候尽可能引用最初的原始文献。 如果一个文献有期刊、会议、arxiv版,优先级:期刊>会议>arxiv 转引容易出错,需要自己阅读。 剽窃自己的成果也算学术不端,期刊版要引用会议版。 想法撞车:保存可靠证据自证
阅读全文
摘要:摘要 作者提出了VisualBERT这一框架,其由一系列的Transformer layer组成,通过self attention将文本与图像隐式地对齐,甚至对于语法关系也很敏感。 方法 VisualBERT 方法的核心就是使用self attention对输入的文本以及图像区域隐式地进行对齐。这里
阅读全文
摘要:摘要 目前的图像文本预训练模型通常通过每个模态全局特征的相似性来建模跨模态的交互,然而这会导致缺乏足够的信息;或者通过在视觉/文本token上使用跨模态注意力/自注意力来建模细粒度的交互,但这会降低训练/推理效率。因此作者提出了一种大规模细粒度的交互模型FILIP,通过跨模态交互实现更精细的对齐。同
阅读全文
摘要:摘要 CLIP需要用大量数据去训练,因此本文提出一种数据高效的模型DeCLIP,相比于CLIP,使用了(1)每种模态内的自监督;(2)跨模态的多视角监督;(3)来自其它相似图像文本对的最近邻监督,可以在数据量大幅减少的情况下与CLIP-Res50媲美(ImageNet上做zs),同时在下游任务上能取
阅读全文
摘要:作者自己的解读比较精辟(NeurIPS'21) SegFormer: 简单有效的语义分割新思路 - Anonymous的文章 - 知乎 https://zhuanlan.zhihu.com/p/379054782 摘要 作者提出了基于Transformer的语义分割模型SegFormer,其有两个特
阅读全文
摘要:Extract Free Dense Labels from CLIP论文阅读笔记 摘要 这篇文章探索的是使用CLIP在像素级别上进行密集预测,作者提出的MaskCLIP可以在没有微调的情况下取得很不错的结果。通过伪标签和自训练的策略,MaskCLIP+可以在zero shot语义分割上达到SOTA
阅读全文