Welcome(🍺)|

WeihangZhang

园龄:1年5个月粉丝:0关注:4

📂论文
🔖VLM
2025-01-18 18:22阅读: 6评论: 0推荐: 0

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

InternVL1.5: 更强的视觉编码器,动态处理高分辨率图像,高质量的双语数据集。

主要内容

对标商业模型,提出InternVL1.5。更强的视觉编码器(InternViT-6B),动态处理高分辨率图像(将图像分成448*448的tails,最高支持4K分辨率),高质量的双语数据集(显著提高了OCR和中文相关任务的性能)。与开源和商业模型相比,在 8/18 个多模态benchmark上sota。

动机和方法

描述
  1. Dynamic High-Resolution & Pixel Shuffle
    受UReader的启发,我们采用了一种动态的高分辨率训练方法,可以有效地适应输入图像的分辨率和宽高比的变化。该方法利用了图像分块的灵活性,增强了模型对细节的处理能力。
    Pixel Shuffle减少了Image tokens(1024 -> 256)。
描述
  1. Two Stage Training
    第一阶段微调ViT+Projector,第二阶段微调ViT+Projector+LLM

  2. High-Quality Bilingual Dataset
    包含了大量的图文数据集,提供了一个数据翻译的pipeline

描述

实验分析

在OCR任务上表现出色,

描述
描述

总结

开源做的很好,大量的pretrain datasets和benchmark,一般人也做不来

本文作者:WeihangZhang

本文链接:https://www.cnblogs.com/weihangzhang/p/18678454

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   WeihangZhang  阅读(6)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起