Qwen2.5-VL:更强大的多模态大模型|附实测结果

模型更新简述

几天前,通义千问更新了最新的多模态大模型Qwen2.5-VL,拥有包含 3B、7B 和 72B 在内的 3 个模型尺寸,同时完全开源,可在huggingface和modelscope下载到所有模型权重。

1. 更灵活的时空维度处理

● 空间维度上,动态地将不同尺寸的图像转换为不同长度的token,并且使用图像的实际尺寸来表示检测框和点等坐标。
● 时间维度上,使用了动态FPS训练和绝对时间编码,使得模型能够通过时间维度 id 的间隔来学习时间的节奏

2. 更精简高效的视觉编码器

● 引入了窗口注意力机制,有效减少了 ViT 端的计算负担,提高了训练和推理速度。
● 采用了 RMSNorm 和 SwiGLU 结构,使 ViT 架构与 LLMs 更加一致,简化了整体网络结构。

模型能力简述

● 视觉理解:具备更强的图片识别能力,能够识别从花朵到复杂图表的各种视觉内容。
● 代理能力:具备推理能力,能够推理和使用工具,支持在电脑、手机上进行交互。
● 长视频理解:能够处理小时级的视频,精确定位视频中的具体时间段和事件。
● 精确定位:提升了物体检测、指向和计数的准确性,支持生成边界框和JSON输出,进行准确的对象检测。
● 结构化数据输出:可以处理多场景、多语言的文档,支持手写文字、表格、图表、化学公式和乐谱等多种格式识别,适用于金融和商业领域,处理发票、表格等。

效果实测

1. 表格解析

直接输入一张带有合并单元格的表格,并且单元格边框不明确,让模型转换为Markdown格式。

可以看到Markdown的结果丢失了表头,导致正文部分最后一列被忽略了。对于这种带有单元格合并的表格,会存在部分单元格却失的情况。

2. 票据识别与计算

第一个测试比较简单,让模型理解发票的金额。

第二个测试稍微难了些,需要进行简单的计算,但是过程和结果都是对的。

3. 文字识别

识别图片中的文字,并且按顺序输出。

4 文档解析

Qwen2.5-VL支持将文档解析为HTML 格式,但是从实际测试来看,没有完全将文档的布局进行还原,文档中的图片也无法恢复。

总结

这版模型增强了对于文档的解析和问答效果,可以一定程度上替代OCR模型的使用,也具备关键信息提取的能力,同时能够实现格式化输出。
表格解析和文档解析可能会有丢失格式的情况,在文档解析中,原始文档中的图片是没法复原的。这个过程可能也与提示词有关,或者需要多轮交互让模型输出正确的样式。

posted @   深度学习机器  阅读(1029)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
点击右上角即可分享
微信分享提示