CV技术指南（公众号）

2023年4月21日

YOLO超快时代终结了 | RT-DETR用114FPS实现54.8AP，远超YOLOv8

摘要：前言本文首先分析了现代实时目标检测器中NMS对推理速度的影响，并建立了端到端的速度基准。为了避免NMS引起的推理延迟，作者提出了一种实时检测Transformer（RT-DETR），这是第一个实时端到端目标检测器。具体而言，设计了一种高效的混合编码器，通过解耦尺度内交互和跨尺度融合来高效处理多尺度阅读全文

posted @ 2023-04-21 12:57 CV技术指南（公众号）阅读(967) 评论(0) 推荐(0) 编辑

2023年4月18日

如何解决混合精度训练大模型的局限性问题？

摘要：前言本文主要讨论关于混合精确训练的数值稳定性问题，作者列举了一些解决方案以及数值不稳定性的补救措施。本文转载自DeepHub IMBA 作者 | Ben Snyder 仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信阅读全文

posted @ 2023-04-18 10:51 CV技术指南（公众号）阅读(848) 评论(0) 推荐(0) 编辑

2023年4月17日

CUDA 教程（三）CUDA C 编程简介

摘要：前言上一章我们学会了 CUDA 编程的必备基础知识，本章会为大家简单讲解 CUDA C 编程中的简单的内存管理，线程操作，如何编写核函数，使用 Thrust 库，并行计算，性能分析工具，我们会结合代码详细为大家讲解 CUDA C 编程，更为复杂的操作期待后续章节。本教程禁止转载。同时，本教程来自阅读全文

posted @ 2023-04-17 14:57 CV技术指南（公众号）阅读(563) 评论(0) 推荐(0) 编辑

2023年4月15日

CVPR 2023 深挖无标签数据价值！SOLIDER：用于以人为中心的视觉

摘要：前言在现今的各种视觉智能场景中，对图像中人的理解和分析一直都是一个非常重要的环节。SOLIDER 是 CVPR 2023 录用的一篇来自于阿里达摩院的工作，是一个专门用于支持各种人体任务的视觉预训练模型。它提供一种自监督训练方式，让我们可以充分利用市面上大量的人体无标注数据训练出一个可以通用于下游阅读全文

posted @ 2023-04-15 16:51 CV技术指南（公众号）阅读(196) 评论(0) 推荐(0) 编辑

2023年4月14日

CVPR 2023｜21 篇数据集工作汇总（附打包下载链接）

摘要：前言本文汇总了21篇CVPR2023中有关数据集的工作，附下载链接。本文转载自极市平台仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理计算机视觉入门1v3辅导班以阅读全文

posted @ 2023-04-14 15:03 CV技术指南（公众号）阅读(529) 评论(0) 推荐(0) 编辑

2023年4月13日

1ms 推理延时！MobileOne：移动端高效部署Backbone

摘要：前言本文提出一种在移动设备上部署友好的神经网络模型 MobileOne。在 ImageNet 上达到 top-1 精度 75.9% 的情况下，在 iPhone12 上的推理时间低于 1 ms。并可以推广到多个任务：图像分类、对象检测和语义分割。本文转载自极市平台作者 | CV开发者都爱看的仅阅读全文

posted @ 2023-04-13 20:03 CV技术指南（公众号）阅读(321) 评论(0) 推荐(0) 编辑

Faster RCNN超快版本来啦 | TinyDet用小于1GFLOPS实现30+AP，小目标炸裂

摘要：前言小目标检测需要检测头扫描图像特征图上的大量位置，这对于计算和节能的轻量化通用检测器来说是非常困难的。为了在有限的计算量下准确检测小目标，本文提出了一种计算复杂度极低的两阶段轻量级检测框架，称为TinyDet。它能够实现用于密集Anchor的高分辨率特征图，以更好地覆盖小目标，作者提出了用于减少阅读全文

posted @ 2023-04-13 14:55 CV技术指南（公众号）阅读(255) 评论(0) 推荐(0) 编辑

2023年4月12日

LargeKernel3D：在3D稀疏CNN中使用大卷积核

摘要：前言 2D CNN 使用大卷积代替小卷积，增大了卷积核的感受野，捕获到的特征更偏向于全局，效果也得到了提升，这表明较大的 kernel size 很重要。但是，当直接在 3D CNN 中应用大卷积核时，那些在 2D 中成功的模块设计在 3D 网络效果不好，例如深度卷积。为了应对这一重要挑战，本文提出阅读全文

posted @ 2023-04-12 12:22 CV技术指南（公众号）阅读(316) 评论(0) 推荐(0) 编辑

CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey

摘要：前言美图影像研究院（MT Lab）与中国科学院大学突破性地提出正则化方法 DropKey，用于缓解 Vision Transformer 中的过拟合问题。该方法通过在注意力计算阶段随机 drop 部分 Key 以鼓励网络捕获目标对象的全局信息，从而避免了由过于聚焦局部信息所引发的模型偏置问题，继而阅读全文

posted @ 2023-04-12 11:16 CV技术指南（公众号）阅读(143) 评论(0) 推荐(0) 编辑

2023年4月11日

ViT-Adapter：用于密集预测任务的视觉 Transformer Adapter

摘要：前言这篇文章提出了一种用于使得 ViT 架构适配下游密集预测任务的 Adapter。简单的 ViT 模型，加上这种 Adapter 之后，下游密集预测任务的性能变强不少。本文给出的 ViT-Adapter-L 在 COCO 数据集上达到了 60.9 的 box AP 和 59.3 的 mask A 阅读全文

posted @ 2023-04-11 21:38 CV技术指南（公众号）阅读(754) 评论(0) 推荐(0) 编辑

公告