【论文阅读笔记】【OCR-文本识别】 SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
SEED
CVPR 2020
读论文思考的问题
-
论文试图解决什么问题?写作背景是什么?
问题:
- 如何利用全局的语义信息提高文本识别模型对低质量文本的鲁棒性和识别效果?
背景:
- 以往的基于 encoder-decoder 的文本识别方法通常基于局部的视觉特征解码出文本,忽略了对单词显式的全局语义信息的利用,导致模型难以识别模糊的、不完整的文本
-
文章提出了什么样的解决方法?
-
利用一个 semantic module(两层的线性网络),从 encoder 提取的图像特征中预测一个 global semantic feature
-
该特征受到预训练的语言模型(FastText)提取的 word embedding 的监督,并用于初始化识别模型的解码器
-
该方法可以集成到多种识别模型中
-
-
你觉得解决方法的关键之处在哪里?
-
利用预测的 global semantic feature 来初始化解码器,让解码器在解码前就有了对整个单词语义信息的概念
-
预测的语义信息受到预训练自然语言模型的监督,保证了预测的信息的合理性
-
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
-
文中对 semantic feature 的利用似乎都只是用于初始化 LSTM 解码器的隐藏状态,提出的框架通用性不高(解码器换成 transformer 应该如何应对呢?)
-
为了适应该框架,ASTER 的双向解码+ensemble 机制被抛弃了(虽然这个机制也没什么太明显的作用)
-
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?
略
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话