MSR: Multi-Scale Shape Regression for Scene Text Detection 论文阅读笔记

MSR: Multi-Scale Shape Regression for Scene Text Detection

1. 基本信息

文章来源:arxiv(录用期刊或会议未知) SAST链接

上传时间:2019.1

作者单位:南洋理工大学、山东大学

检测框架:分割与最近边界点回归,属于EAST的演进版本 EAST链接

2. 提出问题

 自然场景的文本检测存在如下两个问题:

 (1)不精确的定位:缘于特殊的文本形状、细长的文字、变化的长度、不同的弯曲方式,文本检测的定位精度不够良好。为此,基于文本提议框的方法通过调整适当的横纵比锚框来处理长度变化的文本行;基于分割方法可能会出现较大的回归错误当长文本线中间附近的像素距四边形回归框顶点很远时。因此,曲折文本的检测框可能会包含大量的非文本像素;

 (2)不可靠的检测:场景文本通常存在大规模的尺寸波动相对于传统的通用目标检测,最大与最小的文本实例的横纵比可能相差230倍,因此最小的文本实例可能漏检测而最大的文本实例可能会部分检测或断裂;

3. 文章思想与实现流程

3.1 文章思想

 作者认为目前所存的文本检测方法存在定位不精确和检测不可靠的弊端,因此他们提出了多尺度(Multi-scale)-外形回归(Shape Regression)模型MSR.与EAST一脉相承,MSR也属于场景文本检测中的回归方法,不过它回归的是文本中心区域像素点距离最近的边框点的XY距离,而EAST回归的是文本中心区域像素点距离上下左右四边界的XY距离,因此MSR的回归方式可有效地避免在长文本中卷积层的感受野受限的缺点。此外,MSR的另一贡献点为提出了Multi-scale NetWork,既可以预测不同层级的细节,又可以提取图片中不同尺度的文本特征.

3.2 实现流程

(1)网络预测结果输出:

 MSR的backbone采用ResNet-50,经下采样与Multi-Scale NetWork中的上采样,然后通过3×3的全卷积层输出如下与输入图尺寸相同的网络预测结果:

 1) Predicted Text Region: 单通道,文本中心区域,score map,输入图像某像素点属于文本中心线像素点的概率,用于区分不同的文本实例;

 2) Distance in X: 单通道,geometry map,文本中心区域像素点距其最近的边界点的X方向距离;

 3) Distance in Y: 单通道,geometry map,文本中心区域像素点距其最近的边界点的Y方向距离;

(2)文本边界框回归重构:

 根据text region map所得的文本中心区域与Distance map所得的像素点距其最近的边界点的XY距离,可依次计算出文本中心区域的各个像素点所对应的最近的边界点,所得的文本实例粗糙边界框如下图所示。图中可见到一些计算得来的边界定位点落在文本实例内,这可能是部分像素点的位置回归不够精确所导致的。

3.3 Multi Scale NetWork

 文章的创新点之一是提出了多尺度网络MSN,它基于FPN型或U-Net型的特征提取网络,融合了输入图片下采样过后的再经过相同的卷积层所得到的特征图,MSN的具体过程如下图所示。其中,绿色方框内的网络结构与普通的FPN或U-Net无异,绿框外的网络结构则正是MSN所增添的。输入图片经过下采样缩小后,输入到相同结构的特征提取卷积层,所得的特征依次与另一结构相同、输入图像大小不同的支路进行融合,得到细节更加丰富的特征图以供后续的全卷积层,最后输出所需的score map与distance map.

4. Label Generation and Loss Function

4.1 坐标生成

 MSR的坐标生成可分为两步,第一步是生成文本中心区域,根据ground truth所提供的标注信息,按照’三角形生成算法’将对应的上下边界点连接起来,并将相邻的上下两点相邻得到对角线,得到如下左图的红线框。然后取红线框中每条上下走线边的0.25倍的点,如图中的绿点所示,上下0.25倍则所得的文本中心区域的纵向长度共收缩50%.将属于同一文本实例的各绿色定位点按照顺序相连,可得如下右图所示的文本中心区域.

 第二步则为距离图Distance map的生成,计算步骤1中所得的文本中心区域像素点到其最近的边界点的XY方向的距离,分别得到Distance in X map和Distance in Y map.

4.2 损失函数

(1)Dice Coeficient loss: 使用Minimizing the Dice loss作为分割loss, 用于描述两个轮廓的相似程度(SAST、MSR、Corner都是使用Dice loss);

(2)Distance in X/Y : 使用Smooth L1 Loss 作为文本区域中像素点距最近的边框点的回归loss;

posted @ 2019-11-03 12:52  litchi99  阅读(257)  评论(0编辑  收藏  举报