DocumentAI——DocKylin
DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

现存的文档理解多模态模型面临3个主要问题:1、高分辨率;2、密集文本;3、复杂的文档布局。针对此问题作者提出:1、Adaptive Pixel Slimming(APS);2、Dynamic Token Slimming(DTS)通过:1、去除图片冗余像素;2、去除冗余token。来减小模型中的视觉处理器的参数量
模型结构
1、Adaptive Pixel Slimming(APS):自适应的像素缩减:移除图片中不重要的部分(比如说图片的边缘、空白等)处理之后 保持图片的纵横比 不变(因为如果纵横比发生改变容易导致文字扭曲,视觉处理上效果就不是很好)。

只适合处理布局简单的图像,比如说:文档等,因为这些图像而言存在较多的冗余部分可以被删除
处理流程:对于给定的一张图片通过 梯度提取 (简单理解为将图片转化为黑白图片),而后通过设定的阈值(可以类似于opencv中联通区域算法,将一些列的阈值小于某个值的内容进行“拼接”)来判断是不是冗余的(如果没有文字/内容纯白背景就会转化为黑色),而后根据:水平/竖直方向来将冗余的部分进行“丢弃”。(存在缺陷:对于简单的水平/竖直处理很方便,但是复杂之后提取效果就不是很好)
2、Dynamic Token Slimming:动态token缩减。出发点作者认为一个合适的视觉处理器应该是“区分”出在图片中那些是重要的,那些是不重要的

如果视觉处理器能够处理处理出那些属于 essential 那些属于 no-essential,那么后续就只需要将 必要的 和 非必要的进行分类即可。但是对于模型而言无法进行判断,但是非必要的存在一个问题:nonessential tokens typically lack uniqueness(缺乏独立性) and are often similar to other tokens(与其他token相似).那么就可以通过计算 相似性将非必要的token融合到必要的token中。

【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)