摘要:
前言 仅在ImageNet-1K的1.2M图像上训练就可以在多项任务上达到跟别人所提供的预训练模型相当的性能。 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 本文转载自极市平台 仅用于学术分享,若侵权请联系删除 CV方向的准研究生们,未来三年如何 阅读全文
摘要:
前言 本文提出了 MambaQuant,这是一种训练后量化(PTQ)框架,包含:1)基于 Karhunen-Loève 变换(KLT)的增强旋转,使旋转矩阵能适应不同的通道分布;2)平滑融合旋转,用于均衡通道方差,并可将额外参数合并到模型权重中。 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总 阅读全文
摘要:
前言 本文分享 ICLR 2025 论文 ToCa: Accelerating Diffusion Transformers with Token-wise Feature Caching,提出的 ToCa 模型通过 token 粒度的缓存方法,实现了图像和视频生成模型上无需训练的两倍以上的加速。 阅读全文
摘要:
前言 微信也接入满血版DeepSeek R1了!一些被灰度到的网友纷纷开启测评,不仅有思考链,还有参考资料。 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 本文转载自新智元 仅用于学术分享,若侵权请联系删除 CV方向的准研究生们,未来三年如何度过 阅读全文
摘要:
前言 Diffusion Transformer模型由于全局self-attention,其计算复杂度与序列长度平方成正比,导致其在高分辨率图像和长时间视频生成任务中面临计算成本高的问题。为此,来自中山大学和360 AI Research的研究人员基于Proxy token提出了一种高效的Diffu 阅读全文