2023 年 6月随笔档案 - CV技术指南（公众号）

DragGAN开源三天Star量23k，这又来一个DragDiffusion

摘要：前言动动鼠标，让图片变「活」，成为你想要的模样。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础入门班、论文指阅读全文

posted @ 2023-06-30 16:03 CV技术指南（公众号）阅读(77) 评论(0) 推荐(0) 编辑

腾讯厦大发布多模态大模型评测排行榜

摘要：前言腾讯优图实验室联合厦门大学，在新建的评测基准MME上首次对现有10种开源MLLM模型进行了全面定量评测并公布了16个排行榜。本文转载自我爱计算机视觉仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各阅读全文

posted @ 2023-06-29 22:14 CV技术指南（公众号）阅读(361) 评论(0) 推荐(0) 编辑

微调7B模型只用单GPU！通用多模态工具LLaMA-Adapter拆掉门槛，效果惊人

摘要：前言开源万能模型微调工具LLaMA-Adapter发布，支持多模态输入输出。本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈阅读全文

posted @ 2023-06-29 20:31 CV技术指南（公众号）阅读(358) 评论(0) 推荐(0) 编辑

CVPR23 | 浙大、NTU提出零样本通用分割框架PADing

摘要：前言本文分享论文【Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation】，由浙大、NTU提出零样本通用分割框架PADing。本文转载自我爱计算机视觉仅用于学术分享，若侵权阅读全文

posted @ 2023-06-28 18:33 CV技术指南（公众号）阅读(275) 评论(0) 推荐(0) 编辑

3w+星标项目大佬创业：树莓派即可运行大模型，已获GitHub前CEO投资

摘要：前言资深开发大佬，终于忍不住自己出来创业了。本文转载自量子位仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础入门班、论文指导班阅读全文

posted @ 2023-06-28 17:45 CV技术指南（公众号）阅读(255) 评论(0) 推荐(0) 编辑

论文插图也能自动生成了，用到了扩散模型，还被ICLR接收

摘要：前言如果论文中的图表不用绘制，对于研究者来说是不是一种便利呢？有人在这方面进行了探索，利用文本描述生成论文图表，结果还挺有模有样的呢！本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大阅读全文

posted @ 2023-06-27 12:55 CV技术指南（公众号）阅读(142) 评论(0) 推荐(0) 编辑

MaskFormer：将语义分割和实例分割作为同一任务进行训练

摘要：前言本文介绍了Facebook AI Research在21年发布的一种超越这些限制的实例分割方法MaskFormer。本文转载自DeepHub IMBA 作者 | HannaMergui 仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经阅读全文

posted @ 2023-06-25 18:14 CV技术指南（公众号）阅读(378) 评论(0) 推荐(0) 编辑

刷新20项代码任务SOTA，Salesforce提出新型基础LLM系列编码器-解码器Code T5+

摘要：前言大型语言模型 (LLMs) 最近在代码层面的一系列下游任务中表现十分出彩。通过对大量基于代码的数据 (如 GitHub 公共数据) 进行预训练，LLM 可以学习丰富的上下文表征，这些表征可以迁移到各种与代码相关的下游任务。但是，许多现有的模型只能在一部分任务中表现良好，这可能是架构和预训练任务阅读全文

posted @ 2023-06-25 16:48 CV技术指南（公众号）阅读(84) 评论(0) 推荐(0) 编辑

CVPR'23｜一张图重建3D人物新思路：完美复刻复杂动作和宽松衣物，遮挡也不在话下

摘要：前言用一张人像直接打造3D数字人最大的挑战是什么？或许就是兼顾稳定性和自由度。本文转载自量子位仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全阅读全文

posted @ 2023-06-24 18:35 CV技术指南（公众号）阅读(440) 评论(0) 推荐(0) 编辑

CVPR最佳论文颁给自动驾驶大模型！中国团队第一单位，近10年三大视觉顶会首例

摘要：前言这个高光时刻，属于自动驾驶，属于大模型，更是属于中国团队。本文转载自量子位仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础入阅读全文

posted @ 2023-06-23 17:21 CV技术指南（公众号）阅读(197) 评论(0) 推荐(0) 编辑

CVPR23 Highlight | 多模态新任务、新数据集：NTU提出广义引用分割问题GRES

摘要：前言来自新加坡南洋理工大学的研究者们定义了一个名为广义引用分割（Generalized Referring Expression Segmentation，GRES）的新任务，将经典的引用分割扩展到允许表达式指代任意数量的目标对象。同时，文章还构建了第一个大规模的GRES数据集gRefCOCO，其阅读全文

posted @ 2023-06-21 19:25 CV技术指南（公众号）阅读(171) 评论(0) 推荐(0) 编辑

UNeXt：基于 MLP 的快速医学图像分割网络

摘要：前言本文介绍的UNeXt是约翰霍普金斯大学发布的论文。它在早期阶段使用卷积，在潜在空间阶段使用 MLP。通过一个标记化的 MLP 块来标记和投影卷积特征，并使用 MLP 对表示进行建模。对输入通道进行移位，可以专注于学习局部依赖性。本文转载自Deephub Imba 仅用于学术分享，若侵权请联系阅读全文

posted @ 2023-06-17 17:31 CV技术指南（公众号）阅读(217) 评论(0) 推荐(0) 编辑

微信视觉团队斩获CVPR Video Similarity大赛双赛道冠军，视频号也用到了这些技术

摘要：前言视频的内容理解在内容审核、产品运营和搜索推荐等场景都有重要作用。其中，Video Similarity（视频相似性）是视频理解最底层最重要的技术之一，应用在短视频搬运打击、直播录播和盗播打击以及黑库检索等场景，这些应用对视频内容生态至关重要。微信视觉团队报名参加了 CVPR 2023 Vide 阅读全文

posted @ 2023-06-17 14:30 CV技术指南（公众号）阅读(211) 评论(0) 推荐(0) 编辑

CVPR 2023 | 会模仿笔迹的AI，为你创造专属字体

摘要：前言来自华南理工大学、新加坡国立大学、香港理工大学以及琶洲实验室的研究者们联合提出一种有趣的手写文字生成方法，仅需提供少量的参考样本即可临摹用户的书写风格，进而生成符合该风格的任意文字。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、阅读全文

posted @ 2023-06-16 19:47 CV技术指南（公众号）阅读(384) 评论(0) 推荐(0) 编辑

12篇CVPR 2023 最佳论文候选

摘要：前言 CVPR 2023 开幕在即，官方公布了12篇最佳论文候选，快来看看都是什么内容吧！本文转载自我爱计算机视觉仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【C 阅读全文

posted @ 2023-06-15 15:56 CV技术指南（公众号）阅读(489) 评论(0) 推荐(0) 编辑

田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

摘要：前言从四篇论文入手，Sebastian 再谈 Transformer 架构图。本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV 阅读全文

posted @ 2023-06-15 15:08 CV技术指南（公众号）阅读(116) 评论(0) 推荐(0) 编辑

田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

摘要：前言 AI理论再进一步，破解ChatGPT指日可待？本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础入门班、论文指阅读全文

posted @ 2023-06-13 15:37 CV技术指南（公众号）阅读(30) 评论(0) 推荐(0) 编辑

iPhone两秒出图，目前已知的最快移动端Stable Diffusion模型来了

摘要：前言近日，Snap 研究院推出最新高性能 Stable Diffusion 模型，通过对网络结构、训练流程、损失函数全方位进行优化，在 iPhone 14 Pro 上实现 2 秒出图（512x512)，且比 SD-v1.5 取得更好的 CLIP score。这是目前已知最快的端上 Stable D 阅读全文

posted @ 2023-06-11 14:35 CV技术指南（公众号）阅读(277) 评论(0) 推荐(0) 编辑

使用Optuna进行PyTorch模型的超参数调优

摘要：前言 Optuna是一个开源的超参数优化框架，Optuna与框架无关，可以在任何机器学习或深度学习框架中使用它。本文将以表格数据为例，使用Optuna对PyTorch模型进行超参数调优。本文转载自DeepHub IMBA 仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视阅读全文

posted @ 2023-06-06 18:37 CV技术指南（公众号）阅读(485) 评论(0) 推荐(0) 编辑

Transformer结构及其应用详解——GPT、BERT、MT-DNN、GPT-2

摘要：前言本文首先详细介绍Transformer的基本结构，然后再通过GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接，看看Transformer是如何在各个著名的模型中大显神威的。本文转载自新智元仅用于学术分享，若侵权请联系删除欢阅读全文

posted @ 2023-06-05 16:03 CV技术指南（公众号）阅读(279) 评论(0) 推荐(0) 编辑

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

摘要：前言 Midjourney强敌来了！谷歌定制大师StyleDrop，将一张图片作为参考，不论多复杂的艺术风格都能复刻。本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框阅读全文

posted @ 2023-06-04 19:15 CV技术指南（公众号）阅读(76) 评论(0) 推荐(0) 编辑

斯坦福大学李飞飞团队新作：孪生掩码自编码器SiamMAE，刷榜视觉自监督方法

摘要：前言只需一个简单操作扩展MAE，即可实现自监督学习新sota！本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础入阅读全文

posted @ 2023-06-02 16:38 CV技术指南（公众号）阅读(123) 评论(0) 推荐(0) 编辑

06 2023 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论