Qwen2.5-VL：更强大的多模态大模型｜附实测结果

模型更新简述

几天前，通义千问更新了最新的多模态大模型Qwen2.5-VL，拥有包含 3B、7B 和 72B 在内的 3 个模型尺寸，同时完全开源，可在huggingface和modelscope下载到所有模型权重。

1. 更灵活的时空维度处理

● 空间维度上，动态地将不同尺寸的图像转换为不同长度的token，并且使用图像的实际尺寸来表示检测框和点等坐标。
● 时间维度上，使用了动态FPS训练和绝对时间编码，使得模型能够通过时间维度 id 的间隔来学习时间的节奏

2. 更精简高效的视觉编码器

● 引入了窗口注意力机制，有效减少了 ViT 端的计算负担，提高了训练和推理速度。
● 采用了 RMSNorm 和 SwiGLU 结构，使 ViT 架构与 LLMs 更加一致，简化了整体网络结构。

模型能力简述

● 视觉理解：具备更强的图片识别能力，能够识别从花朵到复杂图表的各种视觉内容。
● 代理能力：具备推理能力，能够推理和使用工具，支持在电脑、手机上进行交互。
● 长视频理解：能够处理小时级的视频，精确定位视频中的具体时间段和事件。
● 精确定位：提升了物体检测、指向和计数的准确性，支持生成边界框和JSON输出，进行准确的对象检测。
● 结构化数据输出：可以处理多场景、多语言的文档，支持手写文字、表格、图表、化学公式和乐谱等多种格式识别，适用于金融和商业领域，处理发票、表格等。