2025 年 2月随笔档案 - CV技术指南（公众号）

ICLR 2025｜如何在ImageNet-1K上训练视觉基础模型？

摘要：前言仅在ImageNet-1K的1.2M图像上训练就可以在多项任务上达到跟别人所提供的预训练模型相当的性能。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自极市平台仅用于学术分享，若侵权请联系删除 CV方向的准研究生们，未来三年如何阅读全文

posted @ 2025-02-26 17:14 CV技术指南（公众号）阅读(4) 评论(0) 推荐(0) 编辑

ICLR 2025 | 精度近乎无损！首个Mamba系列模型量化方案MambaQuant

摘要：前言本文提出了 MambaQuant，这是一种训练后量化（PTQ）框架，包含：1）基于 Karhunen-Loève 变换（KLT）的增强旋转，使旋转矩阵能适应不同的通道分布；2）平滑融合旋转，用于均衡通道方差，并可将额外参数合并到模型权重中。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总阅读全文

posted @ 2025-02-26 17:10 CV技术指南（公众号）阅读(7) 评论(0) 推荐(0) 编辑

ICLR 2025 | 无需训练的Token级 DiT加速方法

摘要：前言本文分享 ICLR 2025 论文 ToCa: Accelerating Diffusion Transformers with Token-wise Feature Caching，提出的 ToCa 模型通过 token 粒度的缓存方法，实现了图像和视频生成模型上无需训练的两倍以上的加速。阅读全文

posted @ 2025-02-26 11:55 CV技术指南（公众号）阅读(17) 评论(0) 推荐(0) 编辑

DeepSeek满血版「火」到微信！国民级应用加持，AI搜索要变天？

摘要：前言微信也接入满血版DeepSeek R1了！一些被灰度到的网友纷纷开启测评，不仅有思考链，还有参考资料。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自新智元仅用于学术分享，若侵权请联系删除 CV方向的准研究生们，未来三年如何度过阅读全文

posted @ 2025-02-26 11:53 CV技术指南（公众号）阅读(15) 评论(0) 推荐(0) 编辑

ICLR 2025 | 计算量仅DiT的一半！一个模型架构搞定T2X任务

摘要：前言 Diffusion Transformer模型由于全局self-attention，其计算复杂度与序列长度平方成正比，导致其在高分辨率图像和长时间视频生成任务中面临计算成本高的问题。为此，来自中山大学和360 AI Research的研究人员基于Proxy token提出了一种高效的Diffu 阅读全文

posted @ 2025-02-26 11:51 CV技术指南（公众号）阅读(8) 评论(0) 推荐(0) 编辑

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

摘要：前言本文，来自 Meta 等机构的研究者提出了一种新颖且高效的预训练框架：连续概念混合（Continuous Concept Mixing, CoCoMix），其将离散的下一个 token 预测与连续概念相结合。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、阅读全文

posted @ 2025-02-21 11:18 CV技术指南（公众号）阅读(9) 评论(0) 推荐(0) 编辑

顶刊TPAMI 2025 | 北大、KAUST、字节联合提出“可逆扩散模型”赋能图像重建，代码已开源！

摘要：前言本篇分享 TPAMI 2025 论文Invertible Diffusion Models for Compressed Sensing，北大、KAUST、字节联合提出“可逆扩散模型”赋能图像重建，代码已开源！欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读阅读全文

posted @ 2025-02-21 11:15 CV技术指南（公众号）阅读(10) 评论(0) 推荐(0) 编辑

ICLR 2025 | 精度近乎无损！首个Mamba系列模型量化方案MambaQuant

摘要：前言本文提出了 MambaQuant，这是一种训练后量化（PTQ）框架，包含：1）基于 Karhunen-Loève 变换（KLT）的增强旋转，使旋转矩阵能适应不同的通道分布；2）平滑融合旋转，用于均衡通道方差，并可将额外参数合并到模型权重中。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总阅读全文

posted @ 2025-02-21 11:11 CV技术指南（公众号）阅读(9) 评论(0) 推荐(0) 编辑

新突破！上海交大重磅新作LIMO：挑战RL Scaling范式

摘要：前言在追求人工智能极限的道路上，"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域，业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而，来自上海交通大学的最新研究却给出了一个令人震惊的答案：仅需 817 条精心设计的样本，就能让模型在数学竞赛级别的题目上超越当阅读全文

posted @ 2025-02-09 23:58 CV技术指南（公众号）阅读(39) 评论(0) 推荐(0) 编辑

LLM模型的通病：模型坍塌

摘要：前言本文展示了模型坍塌在不同机器学习模型中的存在及其对大型语言模型的影响。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自算法狗仅用于学术分享，若侵权请联系删除 CV方向的准研究生们，未来三年如何度过？招聘高光谱图像、语义分割、d 阅读全文

posted @ 2025-02-09 23:53 CV技术指南（公众号）阅读(18) 评论(0) 推荐(0) 编辑

02 2025 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论