east论文阅读笔记

EAST（ Efﬁcient and Accurate Scene Text Detector）

FCN+nms

前面的特征提取以及深浅层融合较容易理解，类unet结构；concat后降维

网络输出一个score map 和几何形状（可选四边形加角度RBOX和四坐标QUAD）

score map是shrunk的GT（1维）（是否在边框内的概率）

RBOX输出是每个像素对于四个边的距离（4维）+ 角度（算法的缺点就在此处，如果是边框靠左的点，预测到右边框的距离比较长，超出感受野范围，通常预测不准确）

QUAD是对于四个坐标的偏移（8维）

score map用于后续nms

score map部分，把原始gt标签缩放0.3，得到一个核区域，positive area粗略地设定为核区域内的元素,

几何形状部分，RBOX对于positive area内的像素预测每个点对于四个边的距离；

QUAD对于positive area内的元素预测每个像素对于四个坐标的offset.

两部分，一个score map的loss，一个几何体的loss

score map 的loss:

为了提高速度，避免以往目标检测常用的平衡正负样本难易样本的策略，只使用类平衡交叉熵（实际使用dice loss的更多，收敛快）

几何体的loss:

(特殊性，文本的尺度变化比较大，直接用l1 loss会使得loss的偏差朝更大更长发展，为了兼具预测大尺度和小尺度的文本框，故采用Iou loss和尺度归一化的smooth l1 loss)

RBOX采用iou loss

QUAD采用尺度归一化的smooth l1 loss

NMS之前还进行了行几何体的合并，基于临近的像素预测的几何体高度相关的假设，加权合并同一行像素预测的几何体，可以减小计算压力，按照score加权合并几何体，之后再进行普通的NMS

posted @ 2020-07-15 23:00 you-wh 阅读(557) 评论(0) 编辑收藏举报

刷新页面返回顶部