晓飞的算法工程笔记

2024年8月15日

TSP-Detection：CMU 提出抛弃交叉注意力的 DETR 变体 | ICCV 2021

摘要： DETR基于Transformer将目标检测视为集合预测问题，实现了最先进的性能，但需要超长的训练时间才能收敛。论文研究了DETR优化困难的原因，揭示了收敛缓慢因素主要是匈牙利损失和Transformer交叉注意机制。为了克服这些问题，论文提出了两种解决方案，即TSP-FCOS（基于Transfor 阅读全文

posted @ 2024-08-15 09:42 晓飞的算法工程笔记阅读(15) 评论(0) 推荐(0) 编辑

Deformable DETR：商汤提出可变型 DETR，提点又加速 | ICLR 2021 Oral

摘要： DETR能够消除物体检测中许多手工设计组件的需求，同时展示良好的性能。但由于注意力模块在处理图像特征图方面的限制，DETR存在收敛速度慢和特征分辨率有限的问题。为了缓解这些问题，论文提出了Deformable DETR，其注意力模块仅关注参考点周围的一小组关键采样点，通过更少的训练次数实现比DETR 阅读全文

posted @ 2024-08-15 09:34 晓飞的算法工程笔记阅读(123) 评论(0) 推荐(1) 编辑

2024年8月14日

DeiT-LT：印度科学院提出针对长尾数据的`DeiT`升级模型 | CVPR 2024

摘要： DeiT-LT为ViT在长尾数据集上的应用，通过蒸馏DIST标记引入CNN知识，以及使用分布外图像并重新加权蒸馏损失来增强对尾类的关注。此外，为了减轻过拟合，论文建议用经过SAM训练的CNN教师进行蒸馏，促使所有ViT块中DIST标记学习低秩泛化特征。经过DeiT-LT的训练方案，DIST标记成为尾阅读全文

posted @ 2024-08-14 09:55 晓飞的算法工程笔记阅读(13) 评论(0) 推荐(0) 编辑

StarNet：关于 Element-wise Multiplication 的高性能解释研究 | CVPR 2024

摘要：论文揭示了star operation（元素乘法）在无需加宽网络下，将输入映射到高维非线性特征空间的能力。基于此提出了StarNet，在紧凑的网络结构和较低的能耗下展示了令人印象深刻的性能和低延迟来源：晓飞的算法工程笔记公众号论文: Rewrite the Stars 论文地址：https:/ 阅读全文

posted @ 2024-08-14 09:47 晓飞的算法工程笔记阅读(99) 评论(0) 推荐(1) 编辑

2024年8月13日

DRM：清华提出无偏差的新类发现与定位新方法 | CVPR 2024

摘要：论文分析了现有的新类别发现和定位（NCDL）方法并确定了核心问题：目标检测器往往偏向已知的目标，忽略未知的目标。为了解决这个问题，论文提出了去偏差区域挖掘（DRM）方法，以互补的方式结合类无关RPN和类感知RPN进行目标定位，利用未标记数据的半监督对比学习来改进表征网络，以及采用简单高效的mini- 阅读全文

posted @ 2024-08-13 18:39 晓飞的算法工程笔记阅读(135) 评论(0) 推荐(1) 编辑

2024年7月24日

DSCL：已开源，北京大学提出解耦对比损失 | AAAI 2024

摘要：监督对比损失（SCL）在视觉表征学习中很流行。但在长尾识别场景中，由于每类样本数量不平衡，对两类正样本进行同等对待会导致类内距离的优化出现偏差。此外，SCL忽略了负样本之间的相似关系的语义线索。为了提高长尾识别的性能，论文通过解耦训练目标来解决SCL的这两个问题，将SCL中的原正样本和增强正样本解耦阅读全文

posted @ 2024-07-24 09:35 晓飞的算法工程笔记阅读(208) 评论(0) 推荐(0) 编辑

2024年7月23日

OLOR：已开源，向预训练权值对齐的强正则化方法 | AAAI 2024

摘要：随着预训练视觉模型的兴起，目前流行的视觉微调方法是完全微调。由于微调只专注于拟合下游训练集，因此存在知识遗忘的问题。论文提出了基于权值回滚的微调方法OLOR（One step Learning, One step Review），把权值回滚项合并到优化器的权值更新项中。这保证了上下游模型权值范围的一阅读全文

posted @ 2024-07-23 13:29 晓飞的算法工程笔记阅读(143) 评论(0) 推荐(1) 编辑

2024年7月22日

ScaleDet：AWS 基于标签相似性提出可扩展的多数据集目标检测器 | CVPR 2023

摘要：论文提出了一种可扩展的多数据集目标检测器(ScaleDet)，可通过增加训练数据集来扩大其跨数据集的泛化能力。与现有的主要依靠手动重新标记或复杂的优化来统一跨数据集标签的多数据集学习器不同，论文引入简单且可扩展的公式来为多数据集训练产生语义统一的标签空间，通过视觉文本对齐进行训练，能够学习跨数据集的阅读全文

posted @ 2024-07-22 12:32 晓飞的算法工程笔记阅读(142) 评论(0) 推荐(1) 编辑

2024年7月18日

MViTv2：Facebook出品，进一步优化的多尺度ViT | CVPR 2022

摘要：论文将Multiscale Vision Transformers (MViTv2) 作为图像和视频分类以及对象检测的统一架构进行研究，结合分解的相对位置编码和残差池化连接提出了MViT的改进版本来源：晓飞的算法工程笔记公众号论文: MViTv2: Improved Multiscale Vi 阅读全文

posted @ 2024-07-18 12:28 晓飞的算法工程笔记阅读(247) 评论(0) 推荐(0) 编辑

2024年7月17日

MViT：性能杠杠的多尺度ViT | ICCV 2021

摘要：论文提出了多尺度视觉Transformer模型MViT，将多尺度层级特征的基本概念与Transformer模型联系起来，在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中，MViT均优于单尺度的ViT。来源：晓飞的算法工程笔记公众号论文: Multiscale Vision 阅读全文

posted @ 2024-07-17 13:43 晓飞的算法工程笔记阅读(162) 评论(0) 推荐(0) 编辑

晓飞的算法工程笔记

公告