基于Vision Transformers的文档理解简介

文档理解是从pdf、图像和Word文档中提取关键信息的技术。这篇文章的目标是提供一个文档理解模型的概述。

文档理解算法使用编码器-解码器结构分析文档内容，该管道结合了计算机视觉(CV)和自然语言处理(NLP)方法。管道的CV部分将文档作为输入图像进行分析，生成transformer可以处理的表示形式。在下图中，CV模型生成图像嵌入，并将其馈送到多模态transformer中。

在以前，卷积神经网络(cnn)如ResNet已经主导了CV领域。最近，类似于NLP架构(如BERT)的VIT作为cnn的替代方法获得了更多的关注。ViTs首先将输入图像分割为若干块，将这些块转换为线性嵌入序列，然后将这些嵌入馈送到transformer 编码器中。这个过程如图2所示。线性嵌入的作用类似于NLP中的令牌。与NLP模型一样，transformer 的输出可用于图像分类等任务。

完整文章：

https://avoid.overfit.cn/post/6264490feb9d44eaad7a7d56e3987755

posted @ 2022-12-14 10:09 deephub 阅读(75) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

基于Vision Transformers的文档理解简介

公告