上一页 1 2 3 4 5 6 7 8 9 ··· 50 下一页
摘要: 前言 AAAI 2024 (AAAI Conference on Artificial Intelligence) 人工智能国际会议于近日公布论文录用结果,本届会议共收到9862篇份论文投稿,最终录用2342篇论文,录用率23.75%。AAAI 是美国人工智能协会主办的年会,同时也是是人工智能领域中 阅读全文
posted @ 2023-12-30 15:04 CV技术指南(公众号) 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 前言 在Transformer占据多模态工具半壁江山的时代,大核CNN又“杀了回来”,成为了一匹新的黑马。腾讯AI实验室与港中文联合团队提出了一种新的CNN架构,图像识别精度和速度都超过了Transformer架构模型。切换到点云、音频、视频等其他模态,也无需改变模型结构,简单预处理即可接近甚至超越 阅读全文
posted @ 2023-12-29 12:51 CV技术指南(公众号) 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 前言 来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。 本文转载自机器之心 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理 阅读全文
posted @ 2023-12-27 17:24 CV技术指南(公众号) 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 前言 Runway突然发布公告,宣称要开发通用世界模型,解决AI视频最大难题,未来要用AI模拟世界。 本文转载自新智元 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理 【 阅读全文
posted @ 2023-12-26 16:40 CV技术指南(公众号) 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 前言 在高分辨率场景下,现有的显著目标检测方法难以同时满足快速推理和准确结果的要求。它们受到用于高分辨率图像的公共数据集和高效网络模块的质量的限制。为了缓解这些问题,本文构建一个显著对象匹配数据集HRSON和一个轻量级网络PSUNet。考虑到移动部署框架的高效推理,设计了对称像素置乱模块和轻量级模块 阅读全文
posted @ 2023-12-18 11:51 CV技术指南(公众号) 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 前言 在视频生成场景中,用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域取得的一项重大成功。 本文转载自机器之心 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪 阅读全文
posted @ 2023-12-15 14:42 CV技术指南(公众号) 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 前言 本文分享论文“Knowledge Distillation with Fast CNN for License Plate Detection”,由西工大&同济&中南大学联合提出一种知识蒸馏的车牌检测方法。 本文转载自极市平台 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注 阅读全文
posted @ 2023-12-13 23:56 CV技术指南(公众号) 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 前言 过度训练让中度模型出现了结构泛化能力。 本文转载自新智元 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理 【CV技术指南】CV全栈指导班、基础入门班、论文指导班 全 阅读全文
posted @ 2023-12-12 22:58 CV技术指南(公众号) 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 前言 大佬何恺明和MIT师生一起开发了一个自条件图像生成框架,名叫RCG。这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。 本文转载自新智元 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、 阅读全文
posted @ 2023-12-12 22:26 CV技术指南(公众号) 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 前言 Segment Anything 的关键特征是基于提示的视觉 Transformer(ViT)模型,该模型是在一个包含来自 1100 万张图像的超过 10 亿个掩码的视觉数据集 SA-1B 上训练的,可以分割给定图像上的任何目标。这种能力使得 SAM 成为视觉领域的基础模型,并在超出视觉之外的 阅读全文
posted @ 2023-12-08 13:29 CV技术指南(公众号) 阅读(196) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 50 下一页