上一页 1 2 3 4 5 6 7 8 ··· 20 下一页
摘要: DETR基于Transformer将目标检测视为集合预测问题,实现了最先进的性能,但需要超长的训练时间才能收敛。论文研究了DETR优化困难的原因,揭示了收敛缓慢因素主要是匈牙利损失和Transformer交叉注意机制。为了克服这些问题,论文提出了两种解决方案,即TSP-FCOS(基于Transfor 阅读全文
posted @ 2024-08-15 09:42 晓飞的算法工程笔记 阅读(15) 评论(0) 推荐(0) 编辑
摘要: DETR能够消除物体检测中许多手工设计组件的需求,同时展示良好的性能。但由于注意力模块在处理图像特征图方面的限制,DETR存在收敛速度慢和特征分辨率有限的问题。为了缓解这些问题,论文提出了Deformable DETR,其注意力模块仅关注参考点周围的一小组关键采样点,通过更少的训练次数实现比DETR 阅读全文
posted @ 2024-08-15 09:34 晓飞的算法工程笔记 阅读(123) 评论(0) 推荐(1) 编辑
摘要: DeiT-LT为ViT在长尾数据集上的应用,通过蒸馏DIST标记引入CNN知识,以及使用分布外图像并重新加权蒸馏损失来增强对尾类的关注。此外,为了减轻过拟合,论文建议用经过SAM训练的CNN教师进行蒸馏,促使所有ViT块中DIST标记学习低秩泛化特征。经过DeiT-LT的训练方案,DIST标记成为尾 阅读全文
posted @ 2024-08-14 09:55 晓飞的算法工程笔记 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 论文揭示了star operation(元素乘法)在无需加宽网络下,将输入映射到高维非线性特征空间的能力。基于此提出了StarNet,在紧凑的网络结构和较低的能耗下展示了令人印象深刻的性能和低延迟 来源:晓飞的算法工程笔记 公众号 论文: Rewrite the Stars 论文地址:https:/ 阅读全文
posted @ 2024-08-14 09:47 晓飞的算法工程笔记 阅读(99) 评论(0) 推荐(1) 编辑
摘要: 论文分析了现有的新类别发现和定位(NCDL)方法并确定了核心问题:目标检测器往往偏向已知的目标,忽略未知的目标。为了解决这个问题,论文提出了去偏差区域挖掘(DRM)方法,以互补的方式结合类无关RPN和类感知RPN进行目标定位,利用未标记数据的半监督对比学习来改进表征网络,以及采用简单高效的mini- 阅读全文
posted @ 2024-08-13 18:39 晓飞的算法工程笔记 阅读(135) 评论(0) 推荐(1) 编辑
摘要: 监督对比损失(SCL)在视觉表征学习中很流行。但在长尾识别场景中,由于每类样本数量不平衡,对两类正样本进行同等对待会导致类内距离的优化出现偏差。此外,SCL忽略了负样本之间的相似关系的语义线索。为了提高长尾识别的性能,论文通过解耦训练目标来解决SCL的这两个问题,将SCL中的原正样本和增强正样本解耦 阅读全文
posted @ 2024-07-24 09:35 晓飞的算法工程笔记 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 随着预训练视觉模型的兴起,目前流行的视觉微调方法是完全微调。由于微调只专注于拟合下游训练集,因此存在知识遗忘的问题。论文提出了基于权值回滚的微调方法OLOR(One step Learning, One step Review),把权值回滚项合并到优化器的权值更新项中。这保证了上下游模型权值范围的一 阅读全文
posted @ 2024-07-23 13:29 晓飞的算法工程笔记 阅读(143) 评论(0) 推荐(1) 编辑
摘要: 论文提出了一种可扩展的多数据集目标检测器(ScaleDet),可通过增加训练数据集来扩大其跨数据集的泛化能力。与现有的主要依靠手动重新标记或复杂的优化来统一跨数据集标签的多数据集学习器不同,论文引入简单且可扩展的公式来为多数据集训练产生语义统一的标签空间,通过视觉文本对齐进行训练,能够学习跨数据集的 阅读全文
posted @ 2024-07-22 12:32 晓飞的算法工程笔记 阅读(142) 评论(0) 推荐(1) 编辑
摘要: 论文将Multiscale Vision Transformers (MViTv2) 作为图像和视频分类以及对象检测的统一架构进行研究,结合分解的相对位置编码和残差池化连接提出了MViT的改进版本 来源:晓飞的算法工程笔记 公众号 论文: MViTv2: Improved Multiscale Vi 阅读全文
posted @ 2024-07-18 12:28 晓飞的算法工程笔记 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 论文提出了多尺度视觉Transformer模型MViT,将多尺度层级特征的基本概念与Transformer模型联系起来,在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中,MViT均优于单尺度的ViT。 来源:晓飞的算法工程笔记 公众号 论文: Multiscale Vision 阅读全文
posted @ 2024-07-17 13:43 晓飞的算法工程笔记 阅读(162) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 20 下一页