【论文阅读笔记】【OCR-文本识别】 SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

SEED
CVPR 2020

读论文思考的问题

论文试图解决什么问题？写作背景是什么？

问题：
- 如何利用全局的语义信息提高文本识别模型对低质量文本的鲁棒性和识别效果？
背景：
- 以往的基于 encoder-decoder 的文本识别方法通常基于局部的视觉特征解码出文本，忽略了对单词显式的全局语义信息的利用，导致模型难以识别模糊的、不完整的文本
文章提出了什么样的解决方法？
- 利用一个 semantic module（两层的线性网络），从 encoder 提取的图像特征中预测一个 global semantic feature
- 该特征受到预训练的语言模型（FastText）提取的 word embedding 的监督，并用于初始化识别模型的解码器
- 该方法可以集成到多种识别模型中
你觉得解决方法的关键之处在哪里？
- 利用预测的 global semantic feature 来初始化解码器，让解码器在解码前就有了对整个单词语义信息的概念
- 预测的语义信息受到预训练自然语言模型的监督，保证了预测的信息的合理性
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 文中对 semantic feature 的利用似乎都只是用于初始化 LSTM 解码器的隐藏状态，提出的框架通用性不高（解码器换成 transformer 应该如何应对呢？）
- 为了适应该框架，ASTER 的双向解码+ensemble 机制被抛弃了（虽然这个机制也没什么太明显的作用）
文章是通过设计什么样的实验来支撑其解决方法的有效性的？这些实验你觉得有效吗？

略