03 2023 档案
摘要:前言 关于 PyTorch 炼丹,本文作者表示:如果你有 8 个 GPU,整个训练过程只需要 2 分钟,实现 11.5 倍的性能加速。 本文转载自机器之心 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方
阅读全文
摘要:前言 现有的语义分割工作主要集中在设计有效的解-码器上,然而,一直以来都忽略了这其中的计算成本。本文提出了一种专门用于语义分割的 Head-Free 轻量级架构,称为 Adaptive Frequency Transformer (AFFormer) 。采用异构运算符(CNN 和 ViT)进行像素嵌
阅读全文
摘要:前言 Active Learning主动学习是机器学习 (ML) 的一个研究领域,旨在通过以智能方式查询管道的下一个数据来降低构建新机器学习解决方案的成本和时间。在开发新的 AI 解决方案和处理图像、音频或文本等非结构化数据时,我们通常需要人工对数据进行注释,然后才能使用它们来训练我们的模型。这个数
阅读全文
摘要:前言 Transformers已成为计算机视觉最新进展的核心。然而,从头开始训练ViT模型可能会耗费大量资源和时间。在本文中旨在探索降低ViT模型训练成本的方法。引入了一些算法改进,以便能够在有限的硬件(1 GPU)和时间(24小时)资源下从头开始训练ViT模型。首先,提出了一种向ViT架构添加局部
阅读全文
摘要:前言 本文介绍了 FastViT,这是一种混合ViT架构,可获得最先进的延迟-准确性权衡。它引入了一种新颖的token混合运算符 RepMixer,是 FastViT 的构建块,使用结构重新参数化通过删除网络中的跳过连接来降低内存访问成本。进一步应用训练时间过度参数化和大核卷积来提高准确性,并根据经
阅读全文
摘要:前言 ViT可以缓解弱监督语义分割 (WSSS) 中,CAM生成伪标签无法识别完整对象区域的问题,但是它也造成过度平滑的问题。为了解决这个问题,本文提出ToCo方法,首先,由于观察到 ViT 中的中间层仍然可以保留语义多样性,设计了一个 Patch Token Contrast 模块 (PTC)。
阅读全文
摘要:前言 本文将为大家介绍北邮 GAMMA Lab在ICLR 2023上的最新中稿论文。该工作提出了一种新的图神经网络架构,称为"Specformer",可以在处理图结构数据时结合频谱滤波器和Transformer模型的优势。 本文转载自北邮 GAMMA Lab 作者 | 薄德瑜 仅用于学术分享,若侵权
阅读全文
摘要:前言 超分辨率(SR)等图像恢复算法是退化图像中目标检测不可或缺的预处理模块。然而,这些算法中的大多数假设退化是固定的并且是先验已知的。本文介绍了一种新的目标检测通用框架(RestoreDet),它通过编码和解码一对原始和随机退化图像的退化变换来学习各种分辨率和其他降级条件的等变表示的内在视觉结构。
阅读全文
摘要:前言 来自 FAIR,Meta AI,UC Berkeley,MBZUAI 的研究员们继续对 Dropout 进行了探索,证明了在训练开始时使用 Dropout 也可以缓解欠拟合。 本文转载自极市平台 作者 | CV开发者都爱看的 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于
阅读全文
摘要:前言 CLIP的多模态架构通过在相同的潜在空间中学习语言和视觉表现在二者之间建立了桥梁。因此,CLIP允许我们利用其他架构,使用它的“语言-图像表示”进行下游任务。它是一个基于超大数据量的pair-wise 预训练模型但是在它的下游任务DalleE-2,Stable-Diffusion中,CLIP也
阅读全文
摘要:前言 神经网络的性能评估 (精度、召回率、PSNR 等) 需要大量的资源和时间,是神经网络结构搜索(NAS)的主要瓶颈。早期的 NAS 方法需要大量的资源来从零训练每一个搜索到的新结构。然而,当前的预测器在使用范围上受限,因为它们只能建模来自特定搜索空间的网络结构,并且只能预测新结构在特定任务上的性
阅读全文
摘要:前言 少样本学习(FSL)是机器学习的一个子领域,它解决了只用少量标记示例学习新任务的问题。FSL的全部意义在于让机器学习模型能够用一点点数据学习新东西,这在收集一堆标记数据太昂贵、花费太长时间或不实用的情况下非常有用。 本文转载自DeepHub IMBA 作者 | Christophe Atten
阅读全文
摘要:前言 本文向大家介绍一篇今天新出的非常有意思的 CVPR 2023 的论文,相比于传统的目标检测算法,训练时标注了几个类别,就只能检测几个类别,这篇论文属于通用目标检测的范畴。通过在训练过程中图像和文本对齐,它可以自动扩展到检测那些视觉标注中没有出现的类别。这将有效帮助视觉系统目标检测能力的迁移,感
阅读全文
摘要:前言 是什么秘诀让新手们在短期内快速掌握并能构建最先进的DL算法?一位名叫塞缪尔(Samuel Lynn-Evans)的法国学员总结了十条经验。 本文转载自量子位 作者 | Samuel Lynn-Evans 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、
阅读全文
摘要:前言 本文介绍了在一篇 CVPR 2023 论文中,来自 MIT 和谷歌的研究人员提出了一种全新的框架MAGE,同时在图像识别和生成两大任务上实现了 SOTA。 本文转载自机器之心 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、
阅读全文
摘要:前言 本文从数据初始化的角度研究师生模型,并提出了一种名为 Active Teacher 的半监督对象检测 (SSOD) 新算法。Active Teacher 将师生框架扩展到迭代版本。同时,还从信息量、多样性和难度等方面考察了样本的选择,让Active Teacher 最大限度地主动选择那些最有可
阅读全文
摘要:前言 本文收集和整理了一些目标跟踪相关的开源数据集,均附有下载链接,希望能给大家的学习带来帮助。 本文转载自极市平台 作者 | CV开发者都爱看的 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与
阅读全文
摘要:前言 本文介绍了CVPR2023 的workshop以及征稿信息。 本文转载自我爱计算机视觉 作者 | CV君 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理 计算机视觉
阅读全文
摘要:前言 本文近期更新的CVPR 2023 论文,包含目标检测、图像处理、人脸、场景重建、医学影像、半监督学习/弱监督学习/无监督学习/自监督学习等方向,附打包下载链接。 本文转载极市平台 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解
阅读全文
摘要:前言 在PyTorch Conference 2022上,研发团队介绍了 PyTorch 2.0,并宣布稳定版本将在今年 3 月正式发布,现在 PyTorch 2.0 正式版如期而至。 本文转载自机器之心 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新
阅读全文
摘要:前言 今年腾讯优图实验室共有21篇论文入选CVPR2023,内容涵盖了多模态、工业异常检测、动态表情识别、活体检测等研究方向,展示了腾讯优图在人工智能领域的技术能力和学术成果。本文介绍了腾讯优图实验室入选论文及方法概述。 本文转载自腾讯优图 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指
阅读全文
摘要:前言 本文给大家介绍基于 CNN 架构中重参数化技术的轻量化主干网络 MobileOne。虽然 Apple 公司在其项目 ml-mobileone 中已经开源了 MobileOne 的代码以及权重,但并没有公开训练和推理的策略。MMClassification 通过一系列努力,已经完全复现了 Mob
阅读全文
摘要:前言 本文介绍了一种基于 CNN 的多尺度注意力网络 (MAN),它由多尺度大核注意力 (MLKA) 和门控空间注意力单元 (GSAU) 组成。 本文转载自极市平台 作者 | CV开发者都爱看的 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV
阅读全文
摘要:前言 为了设计快速神经网络,许多工作都集中在减少浮点运算(FLOPs)的数量上。然而,作者观察到FLOPs的这种减少不一定会带来延迟的类似程度的减少。这主要源于每秒低浮点运算(FLOPS)效率低下。并且,如此低的FLOPS主要是由于运算符的频繁内存访问,尤其是深度卷积。因此,本文提出了一种新的par
阅读全文
摘要:前言 本文介绍了MIRNetV2,它的核心模块为MRB,它是一种多尺度特征提取、聚合模块。在多尺度方面,它通过下采样方式构建了三个尺度的特征;在特征聚合方面,它采用了SKNet一文的特征融合机制;在特征提取方面,它采用了一种全新的RCB模块。MIRNetV2的各方面性能都比MIRNetV1强! 本文
阅读全文
摘要:前言 本文提出了一种新的预训练模型架构(iTPN ),该架构由多个金字塔形的Transformer层组成。每个层都包含多个子层,其中一些是普通的self-attention和feed-forward层,而另一些则是新的pyramid层。Pyramid层是一种新的层类型,它被设计为对输入进行多粒度的表
阅读全文
摘要:前言 Vision Transformers 中,输入图像的空间维度会出现相当大的冗余,从而导致大量的计算成本。因此,本文中提出了一种由粗到精的视觉变换器(CF-ViT)来减轻计算负担,同时保持性能。CF-ViT 以两阶段的方式实现网络推理。在粗略推理阶段,输入图像被分成一个小长度的补丁序列,用于计
阅读全文
摘要:前言 从本篇文章开始,咱们将带大家从最基本的点云表示、应用开始,逐步讲授深度学习中的基本模型、处理方案等。本教程将按以下目录来更新,可能日后会有所调整。 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理 本
阅读全文
摘要:前言 视觉目标跟踪是计算机领域的一个重要问题。尽管近年来受到了广泛研究,目标跟踪问题由于本身的高难度、高质量数据的稀少,研究热度比目标检测、语义分割等基本视觉任务略低一些。深度学习的发展和计算机算力的增强带来了视觉算法性能的突飞猛进,而目标跟踪领域中基于深度神经网络的方法只在近几年才初见端倪,可谓大
阅读全文
摘要:前言 人体姿态估计(HPE)是计算机视觉中的一项经典任务,它主要通过识别人的关节的位置来表示人的方向。HPE可以用来理解和分析人类的几何和运动相关信息。Newell等人在Mask3D中提出的堆叠沙漏架构是第一个基于深度学习的HPE方法之一。本文利用重复的自下而上和自上而下的处理,从不同的尺度上捕获信
阅读全文
摘要:欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 计算机视觉入门1v3辅导班 目前CV方向有不少公众号、知识星球,但总体而言都在走资讯路线,覆盖内容主要以最新论文、综述、行业新闻、就业等方面,这些资讯类往往更加注重“最新”而非内容本身。对于计算机视觉
阅读全文
摘要:前言 本文回顾了在大数据集上进行预训练的范式,并且提出了一种简单的方法 Scale up 了预训练的数据集,得到的模型获得了很好的下游任务的性能,作者称之为 Big Transfer (BiT)。BiT 只需要预训练一次,后续对下游任务的微调成本很低。 本文转载自极市平台 作者 | CV开发者都爱看
阅读全文
摘要:前言 本文介绍了PP-LiteSeg,一个新的轻量级实时语义分割任务模型。作者提出了一个灵活和轻量级解码器(FLD)来减少以往解码器的计算开销。为了加强特征表示,作者还提出了一个统一的注意力融合模块(UAFM),它利用空间注意力和通道注意力产生一个注意力权重,然后将输入特征与权重融合。此外,还提出了
阅读全文
摘要:前言 受最近对比学习范式的启发,作者团队首先提出一种无监督的退化表征学习策略,旨在利用对比学习和视觉注意力的最新进展,预训练一个退化表示编码器(DRE)。DRE 提取输入退化人脸图像的退化表征,作为全局条件指导恢复过程。此外,作者还提出了一种新的退化感知特征插值(DAFI)模块,可以根据退化表征动态
阅读全文
摘要:前言 在三维世界当中,物体之间的相互遮挡非常常见。然而,如此常见的遮挡,却仍然是机器视觉系统在场景理解时的主要障碍。本文基于VGG组最新论文 A Tri-Layer Plugin to Improve Occluded Detection,为大家带来目标检测与实例分割任务当中遮挡物问题的最新进展。目
阅读全文
摘要:前言 该文是华为诺亚方舟实验室 & INSA Lyon & Mila Montreal联合提出一种基于深度学习的图像增强方法。作者提出采用深度学习方法学习三种类型(椭圆滤波器、渐变滤波器、多项式滤波器)的空间局部滤波器用于图像增强。该文为深度学习算法在图像复原里面的应用提供了一个新思路,非常建议大家
阅读全文
摘要:前言 目标检测一般包括分类和回归两个子任务。在模型训练的过程中,本文依据回归任务的预测结果动态分配分类任务的标签,同时利用分类任务的预测结果来分配回归任务的标签,以此达到相互指导、左右互搏的效果。 本文转载自计算机视觉研究院 作者 | Edison_G 欢迎关注公众号CV技术指南,专注于计算机视觉的
阅读全文
摘要:前言 本文将回顾轻量级模型的最新工作:EfficientFormer 和 TinyViT,分别从模型设计原则和模型训练技巧两个方面,对轻量化基础模型展开了详细的探索。 本文转载自OpenMMLab 作者 | 带来新知识的 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文
阅读全文
摘要:前言 在低纹理区域,传统的基于特征点的SfM/SLAM/三维重建算法很容易失败。因此很多算法会尝试去提取线特征来提高点特征的鲁棒性,典型操作就是LSD。但在一些带噪声的低光照环境下,LSD很容易失效。而且线特征检测的难点在于,由于遮挡,线端点的精确定位很难获得。本文给大家推荐一篇不错的线特征提取算法
阅读全文
摘要:前言 现有的视觉特征金字塔方法过分集中于层间特征交互,而忽略了层内特征规则。一些方法试图借助注意力机制或视觉Transformer学习紧凑的层内特征表示,但它们忽略了对密集预测任务重要的被忽略的角区域。为了解决这个问题,在本文中提出了一种用于目标检测的集中特征金字塔(CFP),它基于全局显式集中特征
阅读全文
摘要:前言 本文介绍了在单卡上凭借对YOLOv5的性能分析以及几个简单的优化将GTX 3090 FP32 YOLOv5s的训练速度提升了近20%。对于需要迭代300个Epoch的COCO数据集来说相比 ultralytics/yolov5 我们缩短了11.35个小时的训练时间。 本文转载自GiantPan
阅读全文
摘要:前言 语义分割的弱增量学习(WILSS)目的是学习从廉价和广泛可用的图像级标签中分割出新的类别,但图像级别的标签不能提供定位每个片段的细节。为了解决该问题,本文提出了一个新颖且数据高效的框架(FMWISS)。该框架提出了基于预训练的共同分割,以提炼出互补基础模型的知识来生成密集的伪标签。用师生结构进
阅读全文
摘要:前言 本文收集整理了卫星图像的开源数据集,多用于图像分割方向,希望能给大家的学习带来帮助。 来源 | 极市平台 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 计算机视觉入门1v3辅导班 水体卫星图像的图像 数据集
阅读全文
摘要:前言 本文是京东方团队关于端侧超分的深度思考,以端侧设备超分为切入点,对经典上采样与深度学习超分之间的“空白”地带进行思考,提出了一类“一层”超分架构,并对所提方案与其他轻量型超分方案以及bicubic从不同角度进行了对比,同时也为未来端侧超分算法的设计提供了一个极具价值的参考点。 本文转载自AIW
阅读全文
摘要:前言 美团基础研发平台视觉智能部与中科院计算所展开科研课题合作,共同构建大规模数据集Food2K,并提出渐进式区域增强网络用于食品图像识别,相关研究成果已发表于T-PAMI 2023。本文主要介绍了数据集特点、方法设计、性能对比,以及基于该数据集的迁移实验等方面的内容,并对Food2K未来的工作进行
阅读全文