02 2025 档案
摘要:前言 仅在ImageNet-1K的1.2M图像上训练就可以在多项任务上达到跟别人所提供的预训练模型相当的性能。 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 本文转载自极市平台 仅用于学术分享,若侵权请联系删除 CV方向的准研究生们,未来三年如何
阅读全文
摘要:前言 本文提出了 MambaQuant,这是一种训练后量化(PTQ)框架,包含:1)基于 Karhunen-Loève 变换(KLT)的增强旋转,使旋转矩阵能适应不同的通道分布;2)平滑融合旋转,用于均衡通道方差,并可将额外参数合并到模型权重中。 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总
阅读全文
摘要:前言 本文分享 ICLR 2025 论文 ToCa: Accelerating Diffusion Transformers with Token-wise Feature Caching,提出的 ToCa 模型通过 token 粒度的缓存方法,实现了图像和视频生成模型上无需训练的两倍以上的加速。
阅读全文
摘要:前言 微信也接入满血版DeepSeek R1了!一些被灰度到的网友纷纷开启测评,不仅有思考链,还有参考资料。 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 本文转载自新智元 仅用于学术分享,若侵权请联系删除 CV方向的准研究生们,未来三年如何度过
阅读全文
摘要:前言 Diffusion Transformer模型由于全局self-attention,其计算复杂度与序列长度平方成正比,导致其在高分辨率图像和长时间视频生成任务中面临计算成本高的问题。为此,来自中山大学和360 AI Research的研究人员基于Proxy token提出了一种高效的Diffu
阅读全文
摘要:前言 本文,来自 Meta 等机构的研究者提出了一种新颖且高效的预训练框架:连续概念混合(Continuous Concept Mixing, CoCoMix),其将离散的下一个 token 预测与连续概念相结合。 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、
阅读全文
摘要:前言 本篇分享 TPAMI 2025 论文Invertible Diffusion Models for Compressed Sensing,北大、KAUST、字节联合提出“可逆扩散模型”赋能图像重建,代码已开源! 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读
阅读全文
摘要:前言 本文提出了 MambaQuant,这是一种训练后量化(PTQ)框架,包含:1)基于 Karhunen-Loève 变换(KLT)的增强旋转,使旋转矩阵能适应不同的通道分布;2)平滑融合旋转,用于均衡通道方差,并可将额外参数合并到模型权重中。 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总
阅读全文
摘要:前言 在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案:仅需 817 条精心设计的样本,就能让模型在数学竞赛级别的题目上超越当
阅读全文
摘要:前言 本文展示了模型坍塌在不同机器学习模型中的存在及其对大型语言模型的影响。 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 本文转载自算法狗 仅用于学术分享,若侵权请联系删除 CV方向的准研究生们,未来三年如何度过? 招聘高光谱图像、语义分割、d
阅读全文