上一页 1 2 3 4 5 6 7 ··· 48 下一页
摘要: 前言 Meta 研究者提出了一种改进思路,利用 SAM 的掩码图像预训练 (SAMI)。这是通过利用 MAE 预训练方法和 SAM 模型实现的,以获得高质量的预训练 ViT 编码器。这一方法降低了 SAM 的复杂性,同时能够保持良好的性能。 本文转载自机器之心 仅用于学术分享,若侵权请联系删除 欢迎 阅读全文
posted @ 2024-03-02 19:23 CV技术指南(公众号) 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 前言 在医学成像和遥感等一些细粒度领域,多模态基础模型的性能往往不尽人意。因此,许多研究者开始探索这些模型的少样本适应方法,逐渐衍生出三种主要技术途径:1)基于提示的方法;2)基于适配器的方法;3)基于外部知识的方法。尽管如此,这一迅速发展的领域产生了大量结果,但尚无全面的综述来系统地整理研究进展。 阅读全文
posted @ 2024-01-09 16:36 CV技术指南(公众号) 阅读(534) 评论(0) 推荐(0) 编辑
摘要: 前言 智源研究院视觉团队推出以视觉感知为中心的基础模型 TAP (Tokenize Anything via Prompting), 利用视觉提示同时完成任意区域的分割、识别与描述任务。将基于提示的分割一切基础模型 (SAM) 升级为标记一切基础模型 (TAP) ,高效地在单一视觉模型中实现对任意区 阅读全文
posted @ 2024-01-08 17:12 CV技术指南(公众号) 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 前言 本文介绍了一些简单的方法,可以将Python for循环的速度提高1.3到900倍。 本文转载自Deephub Imba 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程 阅读全文
posted @ 2024-01-06 21:45 CV技术指南(公众号) 阅读(1040) 评论(0) 推荐(0) 编辑
摘要: 前言 本文提出了视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而做出规划和决策。对此,我们研发了多模态大模型 CogAgent,可接受 1120×1120 的高分辨率图像输入,不仅提升了通用视觉理解能力,还具备强大的 GUI Agent 能力。 本文转载自 阅读全文
posted @ 2024-01-05 17:30 CV技术指南(公众号) 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 前言 NeurIPS 2023(Neural Information Processing Systems)神经信息处理系统大会是当前全球最负盛名的 AI 学术会议之一,将于 12 月 10 日在美国新奥尔良召开。官方信息显示,本届会议共有 12343 篇有效论文投稿,接收率为 26.1%,略高于 阅读全文
posted @ 2024-01-04 16:18 CV技术指南(公众号) 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 前言 尽管图像分割在过去得到了广泛研究和快速发展,但获得细节上非常准确的分割 mask 始终十分具有挑战性。因为达成高精度的分割既需要高级语义信息,也需要细粒度的纹理信息,这将导致较大的计算复杂性和内存使用。而对于分辨率达到2K甚至更高的图像,这一挑战尤为突出。由于直接预测高质量分割 mask 具有 阅读全文
posted @ 2024-01-02 17:14 CV技术指南(公众号) 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 前言 本文对处理不平衡数据的过采样技术进行了对比总结。 本文转载自Deephub Imba 作者:Abdallah Ashraf 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教 阅读全文
posted @ 2024-01-01 19:29 CV技术指南(公众号) 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 前言 AAAI 2024 (AAAI Conference on Artificial Intelligence) 人工智能国际会议于近日公布论文录用结果,本届会议共收到9862篇份论文投稿,最终录用2342篇论文,录用率23.75%。AAAI 是美国人工智能协会主办的年会,同时也是是人工智能领域中 阅读全文
posted @ 2023-12-30 15:04 CV技术指南(公众号) 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 前言 在Transformer占据多模态工具半壁江山的时代,大核CNN又“杀了回来”,成为了一匹新的黑马。腾讯AI实验室与港中文联合团队提出了一种新的CNN架构,图像识别精度和速度都超过了Transformer架构模型。切换到点云、音频、视频等其他模态,也无需改变模型结构,简单预处理即可接近甚至超越 阅读全文
posted @ 2023-12-29 12:51 CV技术指南(公众号) 阅读(83) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 48 下一页