07 2024 档案

摘要:监督对比损失(SCL)在视觉表征学习中很流行。但在长尾识别场景中,由于每类样本数量不平衡,对两类正样本进行同等对待会导致类内距离的优化出现偏差。此外,SCL忽略了负样本之间的相似关系的语义线索。为了提高长尾识别的性能,论文通过解耦训练目标来解决SCL的这两个问题,将SCL中的原正样本和增强正样本解耦 阅读全文
posted @ 2024-07-24 09:35 晓飞的算法工程笔记 阅读(305) 评论(0) 推荐(0) 编辑
摘要:随着预训练视觉模型的兴起,目前流行的视觉微调方法是完全微调。由于微调只专注于拟合下游训练集,因此存在知识遗忘的问题。论文提出了基于权值回滚的微调方法OLOR(One step Learning, One step Review),把权值回滚项合并到优化器的权值更新项中。这保证了上下游模型权值范围的一 阅读全文
posted @ 2024-07-23 13:29 晓飞的算法工程笔记 阅读(201) 评论(0) 推荐(1) 编辑
摘要:论文提出了一种可扩展的多数据集目标检测器(ScaleDet),可通过增加训练数据集来扩大其跨数据集的泛化能力。与现有的主要依靠手动重新标记或复杂的优化来统一跨数据集标签的多数据集学习器不同,论文引入简单且可扩展的公式来为多数据集训练产生语义统一的标签空间,通过视觉文本对齐进行训练,能够学习跨数据集的 阅读全文
posted @ 2024-07-22 12:32 晓飞的算法工程笔记 阅读(177) 评论(0) 推荐(1) 编辑
摘要:论文将Multiscale Vision Transformers (MViTv2) 作为图像和视频分类以及对象检测的统一架构进行研究,结合分解的相对位置编码和残差池化连接提出了MViT的改进版本 来源:晓飞的算法工程笔记 公众号 论文: MViTv2: Improved Multiscale Vi 阅读全文
posted @ 2024-07-18 12:28 晓飞的算法工程笔记 阅读(459) 评论(0) 推荐(0) 编辑
摘要:论文提出了多尺度视觉Transformer模型MViT,将多尺度层级特征的基本概念与Transformer模型联系起来,在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中,MViT均优于单尺度的ViT。 来源:晓飞的算法工程笔记 公众号 论文: Multiscale Vision 阅读全文
posted @ 2024-07-17 13:43 晓飞的算法工程笔记 阅读(355) 评论(0) 推荐(0) 编辑
摘要:论文提出了用于快速图像分类推理的混合神经网络LeVIT,在不同的硬件平台上进行不同的效率衡量标准的测试。总体而言,LeViT在速度/准确性权衡方面明显优于现有的卷积神经网络和ViT,比如在80%的ImageNet top-1精度下,LeViT在CPU上比EfficientNet快5倍 来源:晓飞的算 阅读全文
posted @ 2024-07-16 13:21 晓飞的算法工程笔记 阅读(223) 评论(0) 推荐(1) 编辑
摘要:CaiT通过LayerScale层来保证深度ViT训练的稳定性,加上将特征学习和分类信息提取隔离的class-attention层达到了很不错的性能,值得看看 来源:晓飞的算法工程笔记 公众号 论文: Going deeper with Image Transformers 论文地址:https:/ 阅读全文
posted @ 2024-07-15 13:59 晓飞的算法工程笔记 阅读(228) 评论(0) 推荐(1) 编辑
摘要:论文基于实验验证,为数据需求预测这一问题提供了比较有用的建议,详情可以直接看看Conclusion部分。 来源:晓飞的算法工程笔记 公众号 论文: How Much More Data Do I Need? Estimating Requirements for Downstream Tasks 论 阅读全文
posted @ 2024-07-12 13:27 晓飞的算法工程笔记 阅读(402) 评论(0) 推荐(0) 编辑
摘要:CvT将Transformer与CNN在图像识别任务中的优势相结合,从CNN中借鉴了多阶段的层级结构设计,同时引入了Convolutional Token Embedding和Convolutional Projection操作增强局部建模能力,在保持计算效率的同时实现了卓越的性能。此外,由于卷积的 阅读全文
posted @ 2024-07-10 12:24 晓飞的算法工程笔记 阅读(316) 评论(0) 推荐(0) 编辑
摘要:作者发现深层ViT出现的注意力崩溃问题,提出了新颖的Re-attention机制来解决,计算量和内存开销都很少,在增加ViT深度时能够保持性能不断提高 来源:晓飞的算法工程笔记 公众号 论文: DeepViT: Towards Deeper Vision Transformer 论文地址:https 阅读全文
posted @ 2024-07-09 13:33 晓飞的算法工程笔记 阅读(263) 评论(0) 推荐(0) 编辑
摘要:DPP能够对目标检测proposal进行非统一处理,根据proposal选择不同复杂度的算子,加速整体推理过程。从实验结果来看,效果非常不错 来源:晓飞的算法工程笔记 公众号 论文: Should All Proposals be Treated Equally in Object Detectio 阅读全文
posted @ 2024-07-08 13:46 晓飞的算法工程笔记 阅读(184) 评论(0) 推荐(0) 编辑
摘要:论文主要处理Vision Transformer中的性能问题,采用推理速度不同的级联模型进行速度优化,搭配层级间的特征复用和自注意力关系复用来提升准确率。从实验结果来看,性能提升不错 来源:晓飞的算法工程笔记 公众号 论文: Not All Images are Worth 16x16 Words: 阅读全文
posted @ 2024-07-03 12:23 晓飞的算法工程笔记 阅读(232) 评论(0) 推荐(1) 编辑
摘要:论文提出了经典的Vision Transormer模型Swin Transformer,能够构建层级特征提高任务准确率,而且其计算复杂度经过各种加速设计,能够与输入图片大小成线性关系。从实验结果来看,Swin Transormer在各视觉任务上都有很不错的准确率,而且性能也很高 来源:晓飞的算法工程 阅读全文
posted @ 2024-07-02 13:16 晓飞的算法工程笔记 阅读(415) 评论(0) 推荐(1) 编辑