摘要:
本文方法基于RPN进行修改,除了学习text/non-text分类,多边形的bounding box回归(x1,y1,x2,y2),增加了14个点的回归,最后再进行后处理(去噪+nms)得到最终输出。 阅读全文
摘要:
本文方法是SSD进行修改,除了修改输出预测4个点坐标偏移量来检测倾斜文本外,还利用了ORN来提取旋转敏感的文字特征,然后在分类分支增加最大池化来提取针对分类不敏感的特征。 阅读全文
摘要:
本文方法是对TextBoxes(水平文字检测)进行改进,用于多方向文字检测。和SSD一样,该方法是one-stage的端到端模型,测试时只需运行网络+NMS即可得到检测结果(倾斜矩形或者任意四边形)。 阅读全文
摘要:
本文方法利用Faster RCNN来做文字检测(水平),改进的地方在于backbone增加了一个VGG-16 net,该子网络用于学习图像中的所有Object信息(包括文字、背景里的各种目标类),采用了三步分段训练方式来训练模型。实验表明,把文字载体的类别信息融合进去后对文字检测结果有很大提升。 阅读全文
摘要:
本文方法是对Faster RCNN进行改造,改造的点主要包括对增加RPN卷积的分支、特征融合时参照HyperNet压缩中间层特征、ROI Pooling增加网格种类数并进行加权平均这几点来检测水平文本。 阅读全文
摘要:
本文方法基于一个新的曲线文本表示方法TextSnake——用一个有序的圆盘序列来表示文字,先用FCN检测文本区域、文本中心线、以及每个点的圆盘半径、方向,然后利用文本区域mask和中心线mask得到text instance segmentation。在每个text-instance上,交替进行点中心化和点扩展,得到文本中心点序列。最后结合圆盘半径,得到文本区域的TextSnake表示并进行union得到最终的文本区域。 阅读全文
摘要:
本文方法是对SSD进行改进,通过增加一个角度信息,用于多方向文字检测。只要通过Attention机制和引入Inception来提高对文字特征的鲁棒性。 阅读全文
摘要:
本文方法是对SSD(水平文字检测)进行改进,通过学习四个点相对多方向anchor的位置信息,用于多方向文字检测。 阅读全文
摘要:
利用Faster RCNN或SSD等目标检测框架检测单个字符,并利用单词、文本行的标注信息进行监督学习来辅助字符检测器的训练(字符模型和mask进行交替训练),最后采用图模型来进行文本行合并、LSTM空格检测来进行单词切割等后处理。 阅读全文
摘要:
本文方法采用instance segmentation思路,预测text/non-text和pixel-link关系,再使用简单的图像处理的方式进行后处理来去除噪声。 阅读全文
摘要:
该方法利用多层卷积神经网络提取图像特征,再利用该特征分别进行两个任务,像素点的分类,以及对应像素点的框的回归。最后将两个任务结果结合起来,并用非极大值抑制NMS来得到最终检测结果。 阅读全文
摘要:
本文方法是直接回归的方法,除了学习text/non-text分类任务,四个点到边界的回归任务(类似EAST),还增加了四条边界的border学习任务,最后输出不是直接用prediction的bounding box,而是用了text score map和四个border map来获得textline。 阅读全文
摘要:
本文方法首次提出直接回归的概念,用自己搭建的FPN网络结构,直接学习四个点相对于中心点(feature map上的某个点)的偏移量,并用Scale & shift方案来缩小要学习目标的值范围 阅读全文
摘要:
OCR2017-2018年的paper汇总 阅读全文