2023 年 8月随笔档案 - CV技术指南（公众号）

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

摘要：前言论文大合集，一篇文章就搞定。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础入门班、论文指导班全面上线! 阅读全文

posted @ 2023-08-28 19:39 CV技术指南（公众号）阅读(293) 评论(0) 推荐(0) 编辑

ICCV 2023 | 通过可靠、多样和类平衡的伪标签重新审视跨域三维目标检测

摘要：前言本文介绍了 ICCV 2023 被接收的文章 Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and Class-balanced Pseudo-Labeling 的介绍。这个工作通过生成可靠、多样且类别平阅读全文

posted @ 2023-08-27 20:16 CV技术指南（公众号）阅读(379) 评论(0) 推荐(0) 编辑

1300亿参数，国内首个数学大模型MathGPT上线！多项基准赶超GPT-4

摘要：前言数学的命运齿轮从此开始转动。国内首个专为数学打造的千亿级大模型MathGPT正式上线，在多项基准测试中碾压GPT-4，刷新SOTA。本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大阅读全文

posted @ 2023-08-26 20:34 CV技术指南（公众号）阅读(261) 评论(0) 推荐(0) 编辑

CVPR 2023 冠军解决方案，零样本异常分割新突破！

摘要：前言本文介绍了CVPR2023 冠军解决方案，零样本异常分割新突破！本文转载自我爱计算机视觉仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈阅读全文

posted @ 2023-08-26 00:22 CV技术指南（公众号）阅读(190) 评论(0) 推荐(0) 编辑

中山大学开源Diffusion模型统一代码框架，推动AIGC规模化应用

摘要：前言近年来，基于扩散模型（Diffusion Models）的图像生成模型层出不穷，展现出令人惊艳的生成效果。然而，现有相关研究模型代码框架存在过度碎片化的问题，缺乏统一的框架体系，导致出现「迁移难」、「门槛高」、「质量差」的代码实现难题。为此，中山大学人机物智能融合实验室（HCP Lab）构建了阅读全文

posted @ 2023-08-25 23:21 CV技术指南（公众号）阅读(59) 评论(0) 推荐(0) 编辑

ACM MM 2023｜放心，“噪”不住你的美！美图&国科大联合提出人脸修复方法DiffBFR

摘要：前言美图影像研究院（MT Lab）与中国科学院大学共同提出盲人脸图像修复方法 DiffBFR，用于修复退化模型未知的低质量图像。该方法探索了两种生成式模型GAN和DPM对长尾问题的适应性，设计合适的人脸修复模块来得到更加准确的细节信息，进而降低生成式方法带来的脸部过平滑现象，从而提高修复精度和准确阅读全文

posted @ 2023-08-24 12:16 CV技术指南（公众号）阅读(104) 评论(0) 推荐(0) 编辑

ACM MM 2023 | 腾讯优图实验室6篇论文入选，含视觉识别、半监督学习等研究方向

摘要：前言近日，腾讯优图实验室6篇论文被国际人工智能多媒体领域顶级会议ACM MM 2023（ACM International Conference on Multimedia）所接收，涵盖视觉识别、神经绘画和风格化研究、半监督学习等多个研究方向，进一步展示了腾讯优图实验室在人工智能领域的技术能力和阅读全文

posted @ 2023-08-22 19:47 CV技术指南（公众号）阅读(450) 评论(0) 推荐(0) 编辑

OpenCV笔记：cv2.VideoCapture 完成视频的跳帧输出操作

摘要：前言我开始关注这个问题，是在使用PaddleOCR+ OpenCV 进行视频文字识别的时候，因为OpenCV 需要循环读取视频的每一帧进行解析，这就导致视频播放特别卡顿。由于视频中相邻帧的内容是一样的，重复识别也没有意义，所以我就在考虑：有没有办法跳帧输出？来源：https://blog.csd 阅读全文

posted @ 2023-08-14 16:28 CV技术指南（公众号）阅读(1290) 评论(0) 推荐(0) 编辑

改动一行代码，PyTorch训练三倍提速，这些「高级技术」是关键

摘要：前言用对了方法，加速 PyTorch 训练，有时也不是那么复杂。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基阅读全文

posted @ 2023-08-14 15:42 CV技术指南（公众号）阅读(254) 评论(0) 推荐(0) 编辑

实践教程｜源码级理解Pytorch中的Dataset和DataLoader

摘要：前言本文30分钟带你达到对Pytorch中的Dataset和DataLoader的源码级理解，并提供构建数据管道的3种常用方式的范例，扫除你构建数据管道的一切障碍。本文转载自算法美食屋作者 | 梁云1991 仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总阅读全文

posted @ 2023-08-14 12:38 CV技术指南（公众号）阅读(404) 评论(0) 推荐(0) 编辑

SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺

摘要：前言最近，SAM向通用人工智能迈出了重要的一步。同时，它的可靠性和公平性也引起了人们的极大关注，尤其是在医疗保健领域。在这项研究中，作者提出了SAM线索的 Multi-box 即时触发不确定性估计，以证明分割病变或组织的可靠性。作者使用具有先验分布参数的蒙特卡罗来估计SAM预测的分布，使用不同的p 阅读全文

posted @ 2023-08-13 12:36 CV技术指南（公众号）阅读(331) 评论(0) 推荐(0) 编辑

KDD 2023 | 因果启发的可解释框架：大模型解释的高效之路

摘要：前言为了深入了解大模型的科学原理并确保其安全，可解释变得日益重要。解释大模型带来了很多独特挑战：（1）大模型参数特别多，怎么尽可能确保解释速度？（2）大模型涉及的样本特别多，如何让用户尽可能少看一些样本的解释也能了解大模型的全貌？这两个问题都指向了对大模型解释效率的要求，而我们希望通过新的范式，为阅读全文

posted @ 2023-08-12 21:21 CV技术指南（公众号）阅读(217) 评论(0) 推荐(0) 编辑

如何看待稚晖君的时间管理水平？

摘要：前言稚晖君究竟是如何安排业余时间去做这么多高水平的项目？而且每个项目的用时也很少，普通人能够从中借鉴一些经验吗？本文转载自计算机视觉life 原文链接：https://www.zhihu.com/question/491456524/answer/2183081310 仅用于学术分享，若侵权请联阅读全文

posted @ 2023-08-12 20:43 CV技术指南（公众号）阅读(101) 评论(0) 推荐(0) 编辑

ICCV'23 | MetaBEV：传感器故障如何解决？港大&诺亚新方案！

摘要：前言现代自动驾驶车辆的感知系统通常从互补的多模态传感器(如LiDAR和摄像机)获取输入。然而，在现实应用中，传感器损坏和故障会导致性能低下，从而影响自动驾驶的安全性。本文提出了一个鲁棒框架，称为MetaBEV，以解决极端的现实世界环境，包括整体六个传感器损坏和两个极端传感器失踪的情况。在MetaB 阅读全文

posted @ 2023-08-12 18:39 CV技术指南（公众号）阅读(107) 评论(0) 推荐(0) 编辑

国产130亿参数大模型免费商用！性能超Llama2-13B，支持8k上下文，哈工大已用上

摘要：前言国产大模型，再次迎来新玩家！本文转载自量子位仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础入门班、论文指导班全面上线!! 阅读全文

posted @ 2023-08-12 18:16 CV技术指南（公众号）阅读(123) 评论(0) 推荐(0) 编辑

ICCV 2023 | 旷视研究院入选论文亮点解读

摘要：前言近日，国际计算机视觉大会 ICCV（International Conference on Computer Vision）公布了 2023 年论文录用结果，本届会议共有 8068 篇投稿，接收率为26.8%。ICCV 是全球计算机领域顶级的学术会议，每两年召开一次，ICCV 2023 将于今阅读全文

posted @ 2023-08-12 17:34 CV技术指南（公众号）阅读(338) 评论(0) 推荐(0) 编辑

ICCV 2023 | Actformer：从单人到多人，迈向更加通用的3D人体动作生成

摘要：前言本文的主要贡献为：1. 提出了基于 GAN 和 Transformer混合架构的通用 3D 人体动作生成框；2. 不仅能够实现单人动作生成，还能拓展到多人交互式动作生成；3. 基于 GTA 游戏引擎构造了一个合成的多人打架数据集，包括2～5个人同时交互，现已开源。本文转载自PaperWeek 阅读全文

posted @ 2023-08-12 16:02 CV技术指南（公众号）阅读(316) 评论(0) 推荐(0) 编辑

真正的包罗“万”象！上海AI实验室、港中文等提出V3Det目标检测数据集，含有13029个类别！

摘要：前言数据集标签纷繁复杂，一直缺少系统、完善的分类体系，而这恰恰又是通用目标检测大模型的重要基础。今天，给大家介绍一篇超级“狠活”文章，来自上海人工智能实验室和香港中文大学的学者提出了一个海量类别的目标检测数据集V3Det，总类别数达到13029！本文转载自我爱计算机视觉仅用于学术分享，若侵权请阅读全文

posted @ 2023-08-12 13:08 CV技术指南（公众号）阅读(147) 评论(0) 推荐(0) 编辑

Hybrid-SORT起飞 | 超过DeepSORT将近10个点的多目标跟踪香不香？

摘要：前言多目标跟踪（MOT）旨在在帧间检测和关联所有所需的目标。大多数方法通过明确或隐式地利用强大的线索（即空间和外观信息）来完成任务，这些线索表现出强大的实例级别判别能力。然而，当出现目标遮挡和聚类时，由于目标之间的高度重叠，空间和外观信息同时变得模糊不清。在本文中，作者证明MOT中这个长期以来的挑阅读全文

posted @ 2023-08-12 12:16 CV技术指南（公众号）阅读(743) 评论(0) 推荐(0) 编辑

在消费级GPU调试LLM的三种方法：梯度检查点，LoRA和量化

摘要：前言 LLM的问题就是权重参数太大，无法在我们本地消费级GPU上进行调试，所以我们将介绍3种在训练过程中减少内存消耗，节省大量时间的方法:梯度检查点，LoRA和量化。本文转载自DeepHub IMBA 仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技阅读全文

posted @ 2023-08-12 11:12 CV技术指南（公众号）阅读(624) 评论(0) 推荐(0) 编辑

可与ViT一较高下，DeepMind从稀疏转向Soft混合专家模型

摘要：前言对于谷歌 DeepMind 的 Soft MoE，有人表示：「即使它不是万能药，仍可以算得上一个突破」。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全阅读全文

posted @ 2023-08-06 13:12 CV技术指南（公众号）阅读(66) 评论(0) 推荐(0) 编辑

ICCV论文速读：SOTA！越简单，越强大！ByteTrackV2-通用2D、3D跟踪算法（开源）

摘要：前言本文提出了一个分层的数据关联策略来寻找低分检测框中的真实目标，这缓解了目标丢失和轨迹不连续的问题。这个简单通用的数据关联策略在2D和3D设置下都表现良好。另外，由于在3D场景中预测对象在世界坐标系中的速度比较容易，本文提出了一种辅助的运动预测策略，将检测到的速度与卡尔曼滤波器结合起来，以解决运阅读全文

posted @ 2023-08-04 18:44 CV技术指南（公众号）阅读(510) 评论(0) 推荐(0) 编辑

30%Token就能实现SOTA性能，华为诺亚轻量目标检测器Focus-DETR效率倍增

摘要：前言目前 DETR 类模型已经成为了目标检测的一个主流范式。但DETR 算法模型复杂度高，推理速度低，严重影响了高准确度目标检测模型在端侧设备的部署，加大了学术研究和产业应用之间的鸿沟。来自华为诺亚、华中科技大学的研究者们设计了一种新型的 DETR 轻量化模型 Focus-DETR来解决这个难题。阅读全文

posted @ 2023-08-02 14:43 CV技术指南（公众号）阅读(125) 评论(0) 推荐(0) 编辑

08 2023 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论