上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 50 下一页
摘要: 前言 现有的语义分割工作主要集中在设计有效的解-码器上,然而,一直以来都忽略了这其中的计算成本。本文提出了一种专门用于语义分割的 Head-Free 轻量级架构,称为 Adaptive Frequency Transformer (AFFormer) 。采用异构运算符(CNN 和 ViT)进行像素嵌 阅读全文
posted @ 2023-03-31 13:06 CV技术指南(公众号) 阅读(544) 评论(0) 推荐(0) 编辑
摘要: 前言 Active Learning主动学习是机器学习 (ML) 的一个研究领域,旨在通过以智能方式查询管道的下一个数据来降低构建新机器学习解决方案的成本和时间。在开发新的 AI 解决方案和处理图像、音频或文本等非结构化数据时,我们通常需要人工对数据进行注释,然后才能使用它们来训练我们的模型。这个数 阅读全文
posted @ 2023-03-31 11:57 CV技术指南(公众号) 阅读(686) 评论(0) 推荐(0) 编辑
摘要: 前言 Transformers已成为计算机视觉最新进展的核心。然而,从头开始训练ViT模型可能会耗费大量资源和时间。在本文中旨在探索降低ViT模型训练成本的方法。引入了一些算法改进,以便能够在有限的硬件(1 GPU)和时间(24小时)资源下从头开始训练ViT模型。首先,提出了一种向ViT架构添加局部 阅读全文
posted @ 2023-03-30 12:14 CV技术指南(公众号) 阅读(508) 评论(0) 推荐(0) 编辑
摘要: 前言 本文介绍了 FastViT,这是一种混合ViT架构,可获得最先进的延迟-准确性权衡。它引入了一种新颖的token混合运算符 RepMixer,是 FastViT 的构建块,使用结构重新参数化通过删除网络中的跳过连接来降低内存访问成本。进一步应用训练时间过度参数化和大核卷积来提高准确性,并根据经 阅读全文
posted @ 2023-03-30 10:54 CV技术指南(公众号) 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 前言 ViT可以缓解弱监督语义分割 (WSSS) 中,CAM生成伪标签无法识别完整对象区域的问题,但是它也造成过度平滑的问题。为了解决这个问题,本文提出ToCo方法,首先,由于观察到 ViT 中的中间层仍然可以保留语义多样性,设计了一个 Patch Token Contrast 模块 (PTC)。 阅读全文
posted @ 2023-03-29 16:54 CV技术指南(公众号) 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 前言 本文将为大家介绍北邮 GAMMA Lab在ICLR 2023上的最新中稿论文。该工作提出了一种新的图神经网络架构,称为"Specformer",可以在处理图结构数据时结合频谱滤波器和Transformer模型的优势。 本文转载自北邮 GAMMA Lab 作者 | 薄德瑜 仅用于学术分享,若侵权 阅读全文
posted @ 2023-03-29 14:35 CV技术指南(公众号) 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 前言 超分辨率(SR)等图像恢复算法是退化图像中目标检测不可或缺的预处理模块。然而,这些算法中的大多数假设退化是固定的并且是先验已知的。本文介绍了一种新的目标检测通用框架(RestoreDet),它通过编码和解码一对原始和随机退化图像的退化变换来学习各种分辨率和其他降级条件的等变表示的内在视觉结构。 阅读全文
posted @ 2023-03-27 19:45 CV技术指南(公众号) 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 前言 来自 FAIR,Meta AI,UC Berkeley,MBZUAI 的研究员们继续对 Dropout 进行了探索,证明了在训练开始时使用 Dropout 也可以缓解欠拟合。 本文转载自极市平台 作者 | CV开发者都爱看的 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于 阅读全文
posted @ 2023-03-27 10:32 CV技术指南(公众号) 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 前言 CLIP的多模态架构通过在相同的潜在空间中学习语言和视觉表现在二者之间建立了桥梁。因此,CLIP允许我们利用其他架构,使用它的“语言-图像表示”进行下游任务。它是一个基于超大数据量的pair-wise 预训练模型但是在它的下游任务DalleE-2,Stable-Diffusion中,CLIP也 阅读全文
posted @ 2023-03-26 21:01 CV技术指南(公众号) 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 前言 神经网络的性能评估 (精度、召回率、PSNR 等) 需要大量的资源和时间,是神经网络结构搜索(NAS)的主要瓶颈。早期的 NAS 方法需要大量的资源来从零训练每一个搜索到的新结构。然而,当前的预测器在使用范围上受限,因为它们只能建模来自特定搜索空间的网络结构,并且只能预测新结构在特定任务上的性 阅读全文
posted @ 2023-03-26 19:54 CV技术指南(公众号) 阅读(96) 评论(0) 推荐(0) 编辑
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 50 下一页