[论文速览] LayoutLMv3@ Pre-training for Document AI with Unified Text and Image Masking

Pre

title: LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
accepted: ACM MM 2022
paper: https://arxiv.org/abs/2204.08387
code: https://github.com/microsoft/unilm/tree/master/layoutlmv3

关键词:多模态预训练,文档理解,Document AI
阅读理由:看里面的WPA预训练任务

Target

大多数多模态预训练模型都适用MLM预训练目标,但对于图片模态的预训练不标则不尽相同,这种差异增加了多模态表示学习的难度,为此提出了LayoutLMv3,有统一的文本和图片masking。

Idea

三个预训练任务:MLM,MIM,WPA
LayoutLMv3 is a pre-trained multimodal Transformer for Document AI with unified text and image masking objectives.

Background

图1 文档AI任务的例子

Method(Model)

Overview

图2 跟现有方法在image embedding上的区别

不同于先前的文档理解多模态模型,它们大都需要一个CNN或者Faster-RCNN抽取图片上的视觉信息。作者从VIT收到启发,直接采用VIT的预处理策略:图片resize->patch->线性映射,组成 \(shape=[hw/patch\_size^2, d]\) 的tensor,再加上1d position embedding,就构成了视觉特征。这样做降低了模型参数量、移除了相对较复杂的预处理流程。

而文本特征方面,先用OCR方法去识别出文本内容跟对应的2D位置信息(bounding box 坐标),再采用预训练好的RoBERTa生成每个token的 text embedding。

图3 LayoutLMv3的预训练目标架构。“Seg” 表示segment级的位置 “[CLS]”, “[MASK]”, “[SEP]”, “[SPE]” 都是特殊 tokens.

Pre-training Objectives

  1. Masked Language Modeling(MLM):每次mask掉30%的token,同时mask掉对应视觉信息。不再是随机、孤立的mask掉某个token,而是一次性mask一定长度的tokens。长度从泊松分布(λ=3)中抽样确定。从视觉上下文token( \(X^{M'}\) )以及文本上下文token( \(Y^{L'}\) )来预测这些被mask掉的token。
  2. Masked Image Modeling(MIM):BEiT的策略,将patch通过image tokenizer转化为离散的token,随机mask掉约40%的patch,再对这些masked patch进行预测。
  3. Word-Patch Alignment(WPA):对文档而言,每个文本单词都跟一个图片块相关,前两个预训练任务分别随机去mask文本跟图片token,不存在模态间的显式alignment学习。因此这个WPA希望学到二者的细粒度对齐。对于未被mask的文本token,根据它对应的图片patch是否被mask,给它分配 unalign/align 标签,然后用交叉熵来预测一个单词对应的图片块是否被mask。
    跟其他模型的对比结果略。

关于WPA:需要忽略已被mask的文本token,防止模型从masked text以及image patch之间学到无用信息。相当于要求模型综合文本、图片的信息,去判断该文本token对应的图片patch是否被mask,从而让模型学会二者的对应关系。

表3 image embeddings 跟 预训练目标的消融研究

图4 在PubLayNet数据集上进行微调的损失收敛曲线

看起来WPA确实有效,但作用有限,似乎不是很需要这两个模态的对齐?

Experiment

Dataset

Metrics

Results

Conclusion

Critique

Unknown

本文作者:NoNoe

本文链接:https://www.cnblogs.com/Stareven233/p/17159388.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   NoNoe  阅读(450)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
  1. 1 Relaxロウきゅーぶ 渡辺剛
  2. 2 カントリーマーチ 栗コーダーカルテット
  3. 3 BGM-M7 かみむら周平
  4. 4 八百万の風が吹く Foxtail-Grass Studio
  5. 5 雲流れ Foxtail-Grass Studio
  6. 6 Melody 梶浦由記
  7. 7 ロック风アレンジ Angel Beats
  8. 8 ヨスガノソラ メインテーマ -遠い空へ- Bruno Wen-li
  9. 9 Servante du feu Matthieu Ladouce
  10. 10 Lost my pieces (Piano Ver.) 橋本由香利
  11. 11 潮鳴り 折戸伸治
  12. 12 雪風 Foxtail-Grass Studio
  13. 13 Bloom of Youth 清水淳一
  14. 14 落月随山隐 饭碗的彼岸,夜莺与玫瑰
  15. 15 Autumn Journey Eric Chiryoku
  16. 16 Alpha C418
  17. 17 Money之歌 神楽Mea
BGM-M7 - かみむら周平
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.

暂无歌词