【OCR光学字符识别】CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)论文学习

ctpn 论文下载地址:https://download.csdn.net/download/jrckkyy/20049701

该算法的目的主要是优化文本定位。

2016 CTPN 论文

优点: 1. 垂直锚点机制; 2. 对固定宽度文本建议 区文本/非文本打分; 3.文本建议区由卷积网络 后的循环网络得到。

表现:1,多尺度多语言检测;2,不需要额外后处理;3,ICDAR2013:0.88F ICDAR2015:0.61F;4,0.14s/image on GPU

意义:自底向上流水线 基于卷积神经网络的字符检测 ——>2016 可训练的端到端模型 基于卷积和循环神经网络

ocr论文sota发展史

文本检测的发展

算法架构:

1. 在VGG16的最后一个卷积映射(conv5)密集的滑动3*3窗口;

2. 每行的序列窗口通过双向LSTM(Bi-LSTM)循环连接,其中每个窗口的卷积特征(3*3*C)被用作256维的Bi-LSTM (包括两个128维的LSTM)的输入;

3. RNN层连接到512维的全连接层;

4. 接着是输出层,联合预测k个锚点的文本、非文本分数,y轴坐标坐标(包括坐标和高度)和边缘调整偏移。

1. 首先通过VGG网络提取特征, conv5后获得大小为N*C*H*W特征图。

2. 之后在特征图上做3*3的滑动窗口,即每个点都结合周围3*3区域特征获得一个长度为3*3*C的特征向量。输出 N*9C*H*W的特征图,该特征显然只有CNN学习到的空间特征。

3. 再将这个feature map进行Reshape: (N*H) *W*9C, 然后以Batch=NH且最大时间长度为W的数据流输入双向 LSTM,学习每一行的序列特征。双向LSTM输出(N*H) *W*256 ,再经Reshape恢复形状:N*256*H*W,该特征既包 含空间特征,也包含了LSTM学习到的序列特征。

4. 然后经过“FC”卷积层,变为的特征: N*512*H*W

关键点:

细粒度文本提议网络

循环连接文本提议

边缘细化

创新点:

提出垂直锚点回归机制

利用锚点预测每个文本提议的垂直位

置和文本/非文本分数

利用网络循环机制获取文本提议区域

统一的端到端可训练模型

处理多尺度和多语言的文本

启发点:

对网络结构的设计需要充分考虑文本的特征

在特征中加入上下文信息也会对检测有帮助

图片缩放细节,在保持原始长宽比的情况下,对短边缩放到固定长度

对于网络结构的设计,需要考虑把规则不要固定为超参数,最好能融入网络结构中,将其当做可学习的参数在网络迭代过程中进行学习不断调整

知识树:

ICDAR数据集:
https://rrc.cvc.uab.es/?ch=4&com=downloads

部分资料摘抄于网络资料。

posted @   爱上编程技术  阅读(4)  评论(0编辑  收藏  举报  
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
点击右上角即可分享
微信分享提示