KIMI-VL TECHNICAL REPORT

Kimi-VL 仅激活 2.8B 参数就能实现多项 SOTA 表现
Kimi-VL-Thinking 是其“深度思考”版本,专注于复杂长链推理,适用于科研、教学、AI agent 等场景。

背景

随着 GPT-4o 等多模态模型的发布,AI 正在向“视觉 + 语言”深度融合发展。然而开源社区在多模态模型(VLM)方面仍面临效率与能力的瓶颈。

Kimi-VL 应运而生:

  • 高效 MoE 架构(2.8B 激活参数)
  • 原生高分辨率视觉编码器 MoonViT
  • 强大的长文本 + 视频 + 多图理解能力
  • 多项 benchmark 超越 GPT-4o-mini、Qwen2.5-VL-7B 等模型

动机与方法

为什么要做 Kimi-VL?

现有开源 VLM 多采用密集架构,难以实现低成本训练、长上下文处理和复杂推理任务。
Kimi-VL 的目标 是用最小的激活参数实现最大化的视觉语言理解与推理能力,并推动开源生态迈入“长思考”时代。

总体方案

Kimi-VL 采用模块化设计,包括:

  • MoonViT 视觉编码器:原生支持高分辨率图像,无需切图
  • MLP Projector:桥接视觉和语言特征
  • Moonlight MoE 语言模型:只激活 2.8B 参数但支持 128K 上下文
描述

方法细节

模型结构

  • Vision Encoder:MoonViT(原生分辨率、RoPE 位置编码)
  • Projector:两层 MLP + Pixel Shuffle 下采样
  • Language Model:Moonlight(MoE 架构、支持长上下文)

训练策略

采用渐进式多阶段训练策略:

  1. 纯文本预训练(5.2T tokens)
  2. ViT训练(图文对,采用 CoCa-style 损失)
  3. 联合预训练(多模态+文本,1.4T)
  4. 冷却阶段(高质量合成数据,提升数学/代码能力)
  5. 长上下文激活(最长支持 128K)
描述
描述

后训练阶段

  • 指令微调(SFT):提升对话/交互能力
  • 长链式思维微调(Long-CoT):构建思考路径
  • 强化学习(RL):强化推理质量与紧凑性
描述

实验设计与结果

综合表现

Kimi-VL 在 24 个主流任务中有 19 项超越 Qwen2.5-VL-7B,且激活参数仅为其 1/2。

  • MMBench-EN(常规视觉问答):83.1%,与 GPT-4o 持平
  • MathVista(视觉数学):68.7%,超过 GPT-4o
  • OCR(InfoVQA):83.2%,全场最佳
  • 长文档(MMLongBench-Doc):35.1%,领先同类
  • 长视频理解(LongVideoBench):64.5%,紧随 GPT-4o
描述
描述

总结与讨论

Kimi-VL 成功实现了三项关键突破:

  1. 小而强大:仅激活 2.8B 参数
  2. 长而清晰:支持 128K 上下文、原生高分图像处理
  3. 推理能力强:通过 Long-CoT 与 RL 实现复杂多步思考 (可能是以后的主要发力点)
posted @ 2025-04-10 10:55  WeihangZhang  阅读(79)  评论(0)    收藏  举报