PSENET阅读笔记

Shape Robust Text Detection with Progressive Scale Expansion Network

PSENET全称叫做渐进式扩展网络，是一种由缩放的文本核逐渐扩展为真实文本的算法；主要解决的就是距离很近的文本无法很好区分其边界的问题。

优点是：检测任意形状的文本；检测距离很近的文本

缺点是：速度较慢，但第二版pan对于速度有很大提升

整体结构简洁，主要分为FPN提取特征图阶段和渐进扩展阶段

与FPN基本类似，在得到p2、p3、p4、p5特征图后，concat起来，用分割的方法逐像素预测文本核（上图的s1-sn）

文本核是本文算法的核心，下面的渐进扩展就是利用每个文本核进行；

文本核是相对于原始的文本标签进行一定程度的缩放，上图中的s1-sn是不同比例的缩放，s1为最原始的文本核也是最小的文本核，sn为最大的文本核

渐进扩展部分主要目的是从里向外扩展以区分靠近的文本，而不是直接预测

s1-sn为网络预测的不同缩放比例的文本核，CC为求像素的连通区域，EX为扩展，具体实现在（g），（b)为连通区域结果，(c,d）为每次扩展的结果

以s1,s2扩展为例：其余文本核的操作过程一样
s1内的元素作为扩展的基础，不同的文本寻找各自连通元素，
s2内元素作为边界限定（也就是说s2是个粗边界，s1扩展得到的要在s2中）

不同的颜色也就是不同个文本对象，若有冲突，按照队列先进先出的特点扩展。
停止扩展的条件是，sn中的元素没有连通区域在sn+1中

损失函数有多个目标，需要对每个缩放的文本核也进行Loss计算，故

Lc是表示没有进行缩放时候的损失函数，即相对于原始大小的groundtruth的损失函数， $L_{s}$ 表示的是相对于缩放后的框的损失函数。

采用的是分割常用的dice loss，优点是直接从任务本身出发，类似Iou loss，缺点是loss曲线不稳定不易观察何时停止。

而且，为了避免计算冗余，对于缩小的核loss计算,Sn中非文本区域不算入loss。

posted @ 2020-07-15 10:36 you-wh 阅读(850) 评论(0) 收藏举报

刷新页面返回顶部