晓飞的算法工程笔记

2024年7月2日

Swin Transformer：最佳论文，准确率和性能双佳的视觉Transformer | ICCV 2021

摘要：论文提出了经典的Vision Transormer模型Swin Transformer，能够构建层级特征提高任务准确率，而且其计算复杂度经过各种加速设计，能够与输入图片大小成线性关系。从实验结果来看，Swin Transormer在各视觉任务上都有很不错的准确率，而且性能也很高来源：晓飞的算法工程阅读全文

posted @ 2024-07-02 13:16 晓飞的算法工程笔记阅读(399) 评论(0) 推荐(1) 编辑

2024年5月23日

CeiT：商汤提出结合CNN优势的高效ViT模型 | 2021 arxiv

摘要：论文提出CeiT混合网络，结合了CNN在提取低维特征方面的局部性优势以及Transformer在建立长距离依赖关系方面的优势。CeiT在ImageNet和各种下游任务中达到了SOTA，收敛速度更快，而且不需要大量的预训练数据和额外的CNN蒸馏监督，值得借鉴来源：晓飞的算法工程笔记公众号论文: 阅读全文

posted @ 2024-05-23 13:17 晓飞的算法工程笔记阅读(310) 评论(0) 推荐(0) 编辑

2024年5月22日

PVT：特征金字塔在Vision Transormer的首次应用，又快又好 | ICCV 2021

摘要：论文设计了用于密集预测任务的纯Transformer主干网络PVT，包含渐进收缩的特征金字塔结构和spatial-reduction attention层，能够在有限的计算资源和内存资源下获得高分辨率和多尺度的特征图。从物体检测和语义分割的实验可以看到，PVT在相同的参数数量下比CNN主干网络更强大阅读全文

posted @ 2024-05-22 13:31 晓飞的算法工程笔记阅读(417) 评论(0) 推荐(1) 编辑

2024年5月20日

T2T-ViT：更多的局部结构信息，更高效的主干网络 | ICCV 2021

摘要：论文提出了T2T-ViT模型，引入tokens-to-token（T2T）模块有效地融合图像的结构信息，同时借鉴CNN结果设计了deep-narrow的ViT主干网络，增强特征的丰富性。在ImageNet上从零训练时，T2T-ViT取得了优于ResNets的性能MobileNets性能相当来源：晓阅读全文

posted @ 2024-05-20 12:30 晓飞的算法工程笔记阅读(213) 评论(0) 推荐(0) 编辑

2024年4月24日

PeLK：101 x 101 的超大卷积网络，同参数量下反超 ViT | CVPR 2024

摘要：最近，有一些大型内核卷积网络的研究，但考虑到卷积的平方复杂度，扩大内核会带来大量的参数，继而引发严重的优化问题。受人类视觉的启发，论文提出了外围卷积，通过参数共享将卷积的复杂性从 \(O(K^{2})\) 降低到 \(O(\mathrm{log} K)\)，有效减少 90% 以上的参数数量并设法将内阅读全文

posted @ 2024-04-24 13:30 晓飞的算法工程笔记阅读(335) 评论(0) 推荐(0) 编辑

2024年4月23日

FasterViT：英伟达提出分层注意力，构造高吞吐CNN-ViT混合网络 | ICLR 2024

摘要：论文设计了新的CNN-ViT混合神经网络FasterViT，重点关注计算机视觉应用的图像吞吐能力。FasterViT结合CNN的局部特征学习的特性和ViT的全局建模特性，引入分层注意力（HAT）方法在降低计算成本的同时增加窗口间的交互。在包括分类、对象检测和分割各种CV任务上，FasterViT在精阅读全文

posted @ 2024-04-23 13:28 晓飞的算法工程笔记阅读(563) 评论(0) 推荐(1) 编辑

2024年4月22日

LORS：腾讯提出低秩残差结构，瘦身模型不掉点 | CVPR 2024

摘要：深度学习模型通常堆叠大量结构和功能相同的结构，虽然有效，但会导致参数数量大幅增加，给实际应用带来了挑战。为了缓解这个问题，LORS（低秩残差结构）允许堆叠模块共享大部分参数，每个模块仅需要少量的唯一参数即可匹配甚至超过全量参数的性能。实验结果表明，LORS减少解码器 70% 的参数后仍可达到与原始模阅读全文

posted @ 2024-04-22 13:19 晓飞的算法工程笔记阅读(327) 评论(0) 推荐(2) 编辑

2024年4月19日

SURE：增强不确定性估计的组合拳，快加入到你的训练指南吧 | CVPR 2024

摘要：论文重新审视了深度神经网络中的不确定性估计技术，并整合了一套技术以增强其可靠性。论文的研究表明，多种技术（包括模型正则化、分类器改造和优化策略）的综合应用显着提高了图像分类任务中不确定性预测的准确性来源：晓飞的算法工程笔记公众号论文: SURE: SUrvey REcipes for buil 阅读全文

posted @ 2024-04-19 12:07 晓飞的算法工程笔记阅读(259) 评论(0) 推荐(0) 编辑

2024年4月16日

CPVT：美团提出动态位置编码，让ViT的输入更灵活 | ICLR 2023

摘要：论文提出了一种新的ViT位置编码CPE，基于每个token的局部邻域信息动态地生成对应位置编码。CPE由卷积实现，使得模型融合CNN和Transfomer的优点，不仅可以处理较长的输入序列，也可以在视觉任务中保持理想的平移不变性。从实验结果来看，基于CPE的CPVT比以前的位置编码方法效果更好来源阅读全文

posted @ 2024-04-16 13:23 晓飞的算法工程笔记阅读(799) 评论(0) 推荐(0) 编辑

DeiT：训练ImageNet仅用4卡不到3天的平民ViT | ICML 2021

摘要：论文基于改进训练配置以及一种新颖的蒸馏方式，提出了仅用ImageNet就能训练出来的Transformer网络DeiT。在蒸馏学习时，DeiT以卷积网络作为teacher，能够结合当前主流的数据增强和训练策略来进一步提高性能。从实验结果来看，效果很不错来源：晓飞的算法工程笔记公众号论文: Tr 阅读全文

posted @ 2024-04-16 13:11 晓飞的算法工程笔记阅读(278) 评论(0) 推荐(0) 编辑

晓飞的算法工程笔记

公告