【OCR光学字符识别】CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)论文学习
ctpn 论文下载地址:https://download.csdn.net/download/jrckkyy/20049701
该算法的目的主要是优化文本定位。
2016 CTPN 论文
优点: 1. 垂直锚点机制; 2. 对固定宽度文本建议 区文本/非文本打分; 3.文本建议区由卷积网络 后的循环网络得到。
表现:1,多尺度多语言检测;2,不需要额外后处理;3,ICDAR2013:0.88F ICDAR2015:0.61F;4,0.14s/image on GPU
意义:自底向上流水线 基于卷积神经网络的字符检测 ——>2016 可训练的端到端模型 基于卷积和循环神经网络
ocr论文sota发展史
文本检测的发展
算法架构:
1. 在VGG16的最后一个卷积映射(conv5)密集的滑动3*3窗口;
2. 每行的序列窗口通过双向LSTM(Bi-LSTM)循环连接,其中每个窗口的卷积特征(3*3*C)被用作256维的Bi-LSTM (包括两个128维的LSTM)的输入;
3. RNN层连接到512维的全连接层;
4. 接着是输出层,联合预测k个锚点的文本、非文本分数,y轴坐标坐标(包括坐标和高度)和边缘调整偏移。
1. 首先通过VGG网络提取特征, conv5后获得大小为N*C*H*W特征图。
2. 之后在特征图上做3*3的滑动窗口,即每个点都结合周围3*3区域特征获得一个长度为3*3*C的特征向量。输出 N*9C*H*W的特征图,该特征显然只有CNN学习到的空间特征。
3. 再将这个feature map进行Reshape: (N*H) *W*9C, 然后以Batch=NH且最大时间长度为W的数据流输入双向 LSTM,学习每一行的序列特征。双向LSTM输出(N*H) *W*256 ,再经Reshape恢复形状:N*256*H*W,该特征既包 含空间特征,也包含了LSTM学习到的序列特征。
4. 然后经过“FC”卷积层,变为的特征: N*512*H*W
关键点:
细粒度文本提议网络
循环连接文本提议
边缘细化
创新点:
提出垂直锚点回归机制
利用锚点预测每个文本提议的垂直位
置和文本/非文本分数
利用网络循环机制获取文本提议区域
统一的端到端可训练模型
处理多尺度和多语言的文本
启发点:
对网络结构的设计需要充分考虑文本的特征
在特征中加入上下文信息也会对检测有帮助
图片缩放细节,在保持原始长宽比的情况下,对短边缩放到固定长度
对于网络结构的设计,需要考虑把规则不要固定为超参数,最好能融入网络结构中,将其当做可学习的参数在网络迭代过程中进行学习不断调整
知识树:
ICDAR数据集:
https://rrc.cvc.uab.es/?ch=4&com=downloads
部分资料摘抄于网络资料。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)