晓飞的算法工程笔记

2024年7月22日

ScaleDet：AWS 基于标签相似性提出可扩展的多数据集目标检测器 | CVPR 2023

摘要：论文提出了一种可扩展的多数据集目标检测器(ScaleDet)，可通过增加训练数据集来扩大其跨数据集的泛化能力。与现有的主要依靠手动重新标记或复杂的优化来统一跨数据集标签的多数据集学习器不同，论文引入简单且可扩展的公式来为多数据集训练产生语义统一的标签空间，通过视觉文本对齐进行训练，能够学习跨数据集的阅读全文

posted @ 2024-07-22 12:32 晓飞的算法工程笔记阅读(173) 评论(0) 推荐(1) 编辑

2024年7月18日

MViTv2：Facebook出品，进一步优化的多尺度ViT | CVPR 2022

摘要：论文将Multiscale Vision Transformers (MViTv2) 作为图像和视频分类以及对象检测的统一架构进行研究，结合分解的相对位置编码和残差池化连接提出了MViT的改进版本来源：晓飞的算法工程笔记公众号论文: MViTv2: Improved Multiscale Vi 阅读全文

posted @ 2024-07-18 12:28 晓飞的算法工程笔记阅读(421) 评论(0) 推荐(0) 编辑

2024年7月17日

MViT：性能杠杠的多尺度ViT | ICCV 2021

摘要：论文提出了多尺度视觉Transformer模型MViT，将多尺度层级特征的基本概念与Transformer模型联系起来，在逐层扩展特征复杂度同时降低特征的分辨率。在视频识别和图像分类的任务中，MViT均优于单尺度的ViT。来源：晓飞的算法工程笔记公众号论文: Multiscale Vision 阅读全文

posted @ 2024-07-17 13:43 晓飞的算法工程笔记阅读(312) 评论(0) 推荐(0) 编辑

2024年7月16日

LeViT：Facebook提出推理优化的混合ViT主干网络 | ICCV 2021

摘要：论文提出了用于快速图像分类推理的混合神经网络LeVIT，在不同的硬件平台上进行不同的效率衡量标准的测试。总体而言，LeViT在速度/准确性权衡方面明显优于现有的卷积神经网络和ViT，比如在80%的ImageNet top-1精度下，LeViT在CPU上比EfficientNet快5倍来源：晓飞的算阅读全文

posted @ 2024-07-16 13:21 晓飞的算法工程笔记阅读(219) 评论(0) 推荐(1) 编辑

2024年7月15日

CaiT：Facebook提出高性能深度ViT结构 | ICCV 2021

摘要： CaiT通过LayerScale层来保证深度ViT训练的稳定性，加上将特征学习和分类信息提取隔离的class-attention层达到了很不错的性能，值得看看来源：晓飞的算法工程笔记公众号论文: Going deeper with Image Transformers 论文地址：https:/ 阅读全文

posted @ 2024-07-15 13:59 晓飞的算法工程笔记阅读(218) 评论(0) 推荐(1) 编辑

2024年7月12日

还在困惑需要多少数据吗？来看看这份估计指南 | CVPR 2022

摘要：论文基于实验验证，为数据需求预测这一问题提供了比较有用的建议，详情可以直接看看Conclusion部分。来源：晓飞的算法工程笔记公众号论文: How Much More Data Do I Need? Estimating Requirements for Downstream Tasks 论阅读全文

posted @ 2024-07-12 13:27 晓飞的算法工程笔记阅读(376) 评论(0) 推荐(0) 编辑

2024年7月10日

CvT：微软提出结合CNN的ViT架构 | 2021 arxiv

摘要： CvT将Transformer与CNN在图像识别任务中的优势相结合，从CNN中借鉴了多阶段的层级结构设计，同时引入了Convolutional Token Embedding和Convolutional Projection操作增强局部建模能力，在保持计算效率的同时实现了卓越的性能。此外，由于卷积的阅读全文

posted @ 2024-07-10 12:24 晓飞的算法工程笔记阅读(295) 评论(0) 推荐(0) 编辑

2024年7月9日

DeepViT：字节提出深层ViT的训练策略 | 2021 arxiv

摘要：作者发现深层ViT出现的注意力崩溃问题，提出了新颖的Re-attention机制来解决，计算量和内存开销都很少，在增加ViT深度时能够保持性能不断提高来源：晓飞的算法工程笔记公众号论文: DeepViT: Towards Deeper Vision Transformer 论文地址：https 阅读全文

posted @ 2024-07-09 13:33 晓飞的算法工程笔记阅读(237) 评论(0) 推荐(0) 编辑

2024年7月8日

DDP：微软提出动态detection head选择，适配计算资源有限场景 | CVPR 2022

摘要： DPP能够对目标检测proposal进行非统一处理，根据proposal选择不同复杂度的算子，加速整体推理过程。从实验结果来看，效果非常不错来源：晓飞的算法工程笔记公众号论文: Should All Proposals be Treated Equally in Object Detectio 阅读全文

posted @ 2024-07-08 13:46 晓飞的算法工程笔记阅读(181) 评论(0) 推荐(0) 编辑

2024年7月3日

DVT：华为提出动态级联Vision Transformer，性能杠杠的 | NeurIPS 2021

摘要：论文主要处理Vision Transformer中的性能问题，采用推理速度不同的级联模型进行速度优化，搭配层级间的特征复用和自注意力关系复用来提升准确率。从实验结果来看，性能提升不错来源：晓飞的算法工程笔记公众号论文: Not All Images are Worth 16x16 Words: 阅读全文

posted @ 2024-07-03 12:23 晓飞的算法工程笔记阅读(230) 评论(0) 推荐(1) 编辑

晓飞的算法工程笔记

公告