【OCR光学字符识别】CTPN（Detecting Text in Natural Image with Connectionist Text Proposal Network）论文学习

ctpn 论文下载地址：https://download.csdn.net/download/jrckkyy/20049701

该算法的目的主要是优化文本定位。

2016 CTPN 论文

优点： 1. 垂直锚点机制； 2. 对固定宽度文本建议区文本/非文本打分； 3.文本建议区由卷积网络后的循环网络得到。

表现：1，多尺度多语言检测；2，不需要额外后处理；3，ICDAR2013：0.88F ICDAR2015：0.61F；4，0.14s/image on GPU

意义：自底向上流水线基于卷积神经网络的字符检测 ——>2016 可训练的端到端模型基于卷积和循环神经网络

ocr论文sota发展史

文本检测的发展

算法架构：

1. 在VGG16的最后一个卷积映射（conv5）密集的滑动3*3窗口;

2. 每行的序列窗口通过双向LSTM（Bi-LSTM）循环连接，其中每个窗口的卷积特征（3*3*C）被用作256维的Bi-LSTM （包括两个128维的LSTM）的输入;

3. RNN层连接到512维的全连接层;

4. 接着是输出层，联合预测k个锚点的文本、非文本分数，y轴坐标坐标（包括坐标和高度）和边缘调整偏移。

1. 首先通过VGG网络提取特征， conv5后获得大小为N*C*H*W特征图。

2. 之后在特征图上做3*3的滑动窗口，即每个点都结合周围3*3区域特征获得一个长度为3*3*C的特征向量。输出 N*9C*H*W的特征图，该特征显然只有CNN学习到的空间特征。

3. 再将这个feature map进行Reshape： (N*H) *W*9C, 然后以Batch=NH且最大时间长度为W的数据流输入双向 LSTM，学习每一行的序列特征。双向LSTM输出(N*H) *W*256 ，再经Reshape恢复形状:N*256*H*W，该特征既包含空间特征，也包含了LSTM学习到的序列特征。

4. 然后经过“FC”卷积层，变为的特征: N*512*H*W

关键点：

细粒度文本提议网络

循环连接文本提议

边缘细化

创新点：

提出垂直锚点回归机制

利用锚点预测每个文本提议的垂直位

置和文本/非文本分数

利用网络循环机制获取文本提议区域

统一的端到端可训练模型

处理多尺度和多语言的文本

启发点：

对网络结构的设计需要充分考虑文本的特征

在特征中加入上下文信息也会对检测有帮助

图片缩放细节，在保持原始长宽比的情况下，对短边缩放到固定长度

对于网络结构的设计，需要考虑把规则不要固定为超参数，最好能融入网络结构中，将其当做可学习的参数在网络迭代过程中进行学习不断调整

知识树：

ICDAR数据集：
https://rrc.cvc.uab.es/?ch=4&com=downloads

部分资料摘抄于网络资料。

posted @ 2021-07-07 00:34 爱上编程技术阅读(16) 评论(0) 收藏举报来源

刷新页面返回顶部

爱上编程技术

天天学习

【OCR光学字符识别】CTPN（Detecting Text in Natural Image with Connectionist Text Proposal Network）论文学习

公告