随笔分类 -  论文学习

摘要:摘要 这篇文章要做的任务是RIS(Referring Image Segmentation),就是通过自然的语言表达来分割一个参考物,而整合文本与像素级的特征是非常有挑战性的。作者受到CLIP的启发,设计了一个visual-language decoder以促进两种模态之间的一致性。同时,作者还提出 阅读全文
posted @ 2022-10-19 21:09 脂环 阅读(1179) 评论(0) 推荐(0) 编辑
摘要:Image Segmentation Using Text and Image Prompts论文阅读笔记 摘要 对于传统的分割方法,训练好后如果需要纳入新的类别,带来的成本是很高的。因此作者提出了一个系统,可以在测试时根据任意的提示生成图像分割,一个提示可以是一个文本或一个图像,这样也就为zero 阅读全文
posted @ 2022-10-19 11:36 脂环 阅读(824) 评论(0) 推荐(0) 编辑
摘要:LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文阅读笔记 摘要 文章的主要贡献是提出了一种新的语言驱动的分割模型LSeg,其使用Text encoder编码描述性的输入标签,使用Image encoder计算图像的逐像素的embedding。图像编码器使用的是对比目标训 阅读全文
posted @ 2022-10-18 15:55 脂环 阅读(260) 评论(0) 推荐(0) 编辑
摘要:摘要 在端到端深度学习系统中,图像区域的分组通常是通过像素级识别标签的自上而下的监督而隐式发生。在本文中,作者将分组机制带回深度网络中,这使得语义分割可以在只有文本信号监督的情况下完成。具体来说,作者提出了一种分组group的ViT模型,通过对比损失,在一个大规模的图像-文本数据集上与文本编码器共同 阅读全文
posted @ 2022-10-17 22:23 脂环 阅读(910) 评论(0) 推荐(0) 编辑
摘要:摘要 作者首先回顾CLIP,说道使用图像-文本对进行大规模预训练得到的模型可以很容易迁移到下游任务。然后指出目前还没有人做过将从图像-文本对学到的知识应用于密集预测任务的工作。由此引出本文的核心,即作者提出了一个密集预测框架,将图像-文本匹配问题转化为像素-文本匹配问题,利用图像的上下文信息指导语言 阅读全文
posted @ 2022-10-11 22:25 脂环 阅读(642) 评论(0) 推荐(0) 编辑
摘要:摘要 本文提出了一种简单有效的连续学习策略,利用了深度模型压缩、关键权重选择和渐进网络扩展的原则并进行整合。 方法的优点:避免遗忘、允许模型扩展,同时可以通过之前的积累建立更好的模型。 动机 作者通过权重修剪、临界权重选择以及渐进网络扩展结合深度模型压缩的思想进行设计,并将其称为CPG。 作者提到正 阅读全文
posted @ 2022-10-06 15:41 脂环 阅读(141) 评论(0) 推荐(0) 编辑
摘要:ConvNeXt 摘要 文章介绍道,视觉识别的 "Roaring 20s"始于ViT的引入,其迅速取代了卷积网络成为了最先进的图像分类模型。但最基本的ViT模型仅是被设计用来进行图像分类,难以应用于其他任务。而Swin Transformer的出现使得Transformer可以作为通用的骨干网络。然 阅读全文
posted @ 2022-02-06 19:20 脂环 阅读(200) 评论(0) 推荐(0) 编辑
摘要:Swin Transformer Swin transformer是一个用了移动窗口的层级式(Hierarchical)transformer。其像卷积神经网络一样,也能做block以及层级式的特征提取。本篇博客结合网上的资料,对该论文进行学习。 摘要 本篇论文提出了一个新的Transformer, 阅读全文
posted @ 2022-02-02 20:35 脂环 阅读(879) 评论(3) 推荐(1) 编辑
摘要:[ICLR 2021] Revisiting Dynamic Convolution via Matrix Decomposition 摘要 该文章表明,K个静态卷积核的自适应聚合所得到的动态卷积效果较好,但其存在两个主要的问题: 卷积权重数量增加了K倍。 动态注意力和静态卷积核的联合优化具有挑战性 阅读全文
posted @ 2022-01-30 16:50 脂环 阅读(1037) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
主题色彩