2024 年 1月随笔档案 - CV技术指南（公众号）

多模态大模型少样本自适应综述

摘要：前言在医学成像和遥感等一些细粒度领域，多模态基础模型的性能往往不尽人意。因此，许多研究者开始探索这些模型的少样本适应方法，逐渐衍生出三种主要技术途径：1）基于提示的方法；2）基于适配器的方法；3）基于外部知识的方法。尽管如此，这一迅速发展的领域产生了大量结果，但尚无全面的综述来系统地整理研究进展。阅读全文

posted @ 2024-01-09 16:36 CV技术指南（公众号）阅读(916) 评论(0) 推荐(0) 编辑

顶配版SAM！由分割一切迈向感知一切

摘要：前言智源研究院视觉团队推出以视觉感知为中心的基础模型 TAP (Tokenize Anything via Prompting), 利用视觉提示同时完成任意区域的分割、识别与描述任务。将基于提示的分割一切基础模型 (SAM) 升级为标记一切基础模型 (TAP) ，高效地在单一视觉模型中实现对任意区阅读全文

posted @ 2024-01-08 17:12 CV技术指南（公众号）阅读(279) 评论(0) 推荐(0) 编辑

加速Python循环的12种方法,最高可以提速900倍

摘要：前言本文介绍了一些简单的方法，可以将Python for循环的速度提高1.3到900倍。本文转载自Deephub Imba 仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程阅读全文

posted @ 2024-01-06 21:45 CV技术指南（公众号）阅读(2411) 评论(0) 推荐(0) 编辑

Github揽获3k+星！清华开源CogAgent：基于多模态大模型的GUI Agent

摘要：前言本文提出了视觉 GUI Agent，使用视觉模态（而非文本）对 GUI 界面进行更全面直接的感知，从而做出规划和决策。对此，我们研发了多模态大模型 CogAgent，可接受 1120×1120 的高分辨率图像输入，不仅提升了通用视觉理解能力，还具备强大的 GUI Agent 能力。本文转载自阅读全文

posted @ 2024-01-05 17:30 CV技术指南（公众号）阅读(773) 评论(0) 推荐(0) 编辑

NeurIPS 2023 | 腾讯 AI Lab 18 篇入选论文解读

摘要：前言 NeurIPS 2023（Neural Information Processing Systems）神经信息处理系统大会是当前全球最负盛名的 AI 学术会议之一，将于 12 月 10 日在美国新奥尔良召开。官方信息显示，本届会议共有 12343 篇有效论文投稿，接收率为 26.1％，略高于阅读全文

posted @ 2024-01-04 16:18 CV技术指南（公众号）阅读(140) 评论(0) 推荐(0) 编辑

NeruIPS 2023 | SegRefiner：通过扩散模型实现高精度图像分割

摘要：前言尽管图像分割在过去得到了广泛研究和快速发展，但获得细节上非常准确的分割 mask 始终十分具有挑战性。因为达成高精度的分割既需要高级语义信息，也需要细粒度的纹理信息，这将导致较大的计算复杂性和内存使用。而对于分辨率达到2K甚至更高的图像，这一挑战尤为突出。由于直接预测高质量分割 mask 具有阅读全文

posted @ 2024-01-02 17:14 CV技术指南（公众号）阅读(634) 评论(0) 推荐(0) 编辑

处理不平衡数据的过采样技术对比总结

摘要：前言本文对处理不平衡数据的过采样技术进行了对比总结。本文转载自Deephub Imba 作者：Abdallah Ashraf 仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教阅读全文

posted @ 2024-01-01 19:29 CV技术指南（公众号）阅读(250) 评论(0) 推荐(0) 编辑

01 2024 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论