Using the Improved Mask R-cnn and Softer-nms for Target Segmentation of Remote Sensing Image - 小··明

Using the Improved Mask R-cnn and Softer-nms for Target Segmentation of Remote Sensing Image

利用改进的mask R-cnn和soft -nms进行遥感图像目标分割

Author(s): Yiwen Wang, Cheng Huang and Yunbo Rao Presenter: Yiwen Wang, University of Electronic Science and Technology of China, China

Wang Y, Rao Y, Huang C, et al. Using the improved mask R-CNN and softer-NMS for target segmentation of remote sensing image[C]//2021 4th International Conference on Pattern Recognition and Artificial Intelligence (PRAI). IEEE, 2021: 91-95.

内容	描述
论文信息	- 论文标题：利用改进的Mask R-cnn和 Softer-nms 进行遥感图像目标分割 Using the Improved Mask R-cnn and Softer-nms for Target Segmentation of Remote Sensing Image	- 作者：Yiwen Wang, Cheng Huang and Yunbo Rao - 发表日期：2021 - 期刊或会议名称：PRAI
摘要概要	对Mask R-CNN进行改进，加入了预测模块，解决Mask R-CNN训练慢的问题，并用softer-NMS代替NMS。该模型可以很好地捕捉边缘，从而更准确地分割遥感目标。检测的准确性也有很好的提高 - 关键词：mask R-CNN, Softer-NMS, remote image, target segmentation
主要研究问题	本文使用的模型基于Mask R-CNN进行了改进，并与最新的候选框算法 Softer-NMS 相结合，完成了遥感图像的分割任务。
主要贡献	1. 对Mask R-CNN的结构做了一点改进，使其收敛速度更快，同时不损失分割精度。 2. 将Mask R-CNN中的NMS算法替换为Softer-NMS，这使得Mask R-CNN在候选框的生成和选择上更加准确。
方法	Mask R-CNN 有一个小缺陷。当 Mask R-CNN 的 ROI Align 处理 feature map 时，训练会非常慢。与单独使用 ROI Align 相比非常缓慢。此外，由于 Mask R-CNN 发送到ROI Align的图片数量庞大，Mask R-CNN的分割分支也不容易学习。考虑到这一问题，论文在掩模分支中增加了一个预测模块。由于这种改进，其损失函数收敛速度快得多。 NMS在两个目标接近时，由于重叠区域过大，得分较低的框被删除，这将降低算法的平均检测率。Soft-NMS 和 Softer-NMS 对这一现象而提出。论文将Mask R-CNN中的NMS算法替换为Softer-NMS
实验设计	- 数据：从谷歌Earth下载了一个遥感图像数据集。数据集包含飞机、公园和汽车等对象。该数据集共有500幅图像，其中300幅用于训练，200幅用于测试。图片尺寸从5000×5000到800×800等。	- 论文中的主要结果和发现：本文方法在细节和目标完整性上的效果优于Mask R-CNN，作者分析，由于Mask R-CNN的分割是基于目标检测完成后再进行分割，结合Softer-NMS使得Mask R-CNN能够更有效地获得更精确的候选框，这为Mask R-CNN的分割提供了良好的基础。本文加入了预测分支，可以提前判断出区域像素是否为目标像素，这有助于提高后续分割的准确性，同时也使得函数对数据的拟合更好，收敛速度更快。
结论	本文将经典的Mask R-CNN与Softer-NMS相结合，在Mask R-CNN的基础上进行了一定的改进。实验结果验证了本文方法比Mask R-CNN更有效、更准确，可以在更短的时间内对目标进行分割，精度不低于Mask R-CNN，候选框的细节筛选也比以前更好。损失函数下降速度比Mask R-CNN更快，并能适应数据特征。在未来，可以尝试更强大的实例分割模型完善研究。
个人评价	本文对Mask R-CNN进行改进，加入了预测模块，解决Mask R-CNN训练慢的问题，并用softer-NMS代替NMS。本文方法的精度提高主要是由于Softer-NMS使得Mask R-CNN能够更有效地获得更精确的候选框，这为分割任务提供了良好的基础。加入了预测分支，可以提前判断出区域像素是否为目标像素，这有助于提高后续分割的准确性，加快了损失函数下降速度。	本文没有提供开源代码，另外相较于原始的Mask R-CNN精度提高的幅度有限。

Abstract

近年来，将遥感图像处理与深度学习方法相结合日益流行。本文结合已有的实例分割模型Mask R-CNN和目标检测算法Softer-NMS，提出了一种基于Mask R-CNN 改进的模型。该模型可以很好地捕捉边缘，从而更准确地分割目标。实验结果也验证了该方法的有效性。与原型Mask R-CNN相比，本文方法提高了整体分割精度，并且掩模分支的 loss 函数和 RPN 候选帧的 loss 函数下降速度比原始模型快。另外，检测的准确性也有很好的提高。

introduction

遥感图像的目标提取和分割是近年来图像领域的热点问题。随着遥感技术的快速发展和对地观测卫星种类的不断增多，卫星图像数据集的数据量也比以前大得多。遥感图像中目标的提取和分割面临的挑战包括:图像中目标大小不一、小目标边界难以确定和分割、天气环境引入的干扰因素、卫星图像数据集数据量大等。

在数据量不大的情况下，机器学习和深度学习的效果是可以比较的。随着数据量的增加，深度学习在挖掘数据隐藏关系方面优于机器学习。深度学习方法不需要特征工程。随着遥感技术的逐步发展，遥感技术的应用也越来越广泛。传统的机器学习方法，例如SVM在处理大量的数据时显得有些笨拙。

主要贡献

对Mask R-CNN的结构做了一点改进，使其收敛速度更快，同时不损失分割精度。
将Mask R-CNN中的NMS算法替换为Softer-NMS，这使得Mask R-CNN在候选框的生成和选择上更加准确。

methodology

像Faster R-CNN一样，Mask R-CNN也可以分为两个步骤。第一步是将图像输入到FPN网络，得到feature map。该feature map将进入RPN网络生成candidate frame，并与原始feature map结合，形成具有多个candidate frame的图像。第二步是对这些图像进行NMS和ROI Align处理，然后在ROI Align处理后进入全连接层。最后，图像将经过三个分支的处理，得到具有confidence score, candidate frame and segmentation area。

但是Mask R-CNN有一个小缺陷。当Mask R-CNN的ROI对齐处理feature map时，训练会非常慢。与单独使用ROI Align的训练速度相比非常缓慢。此外，由于Mask R-CNN发送到ROI Align的图片数量庞大，Mask R-CNN的分割分支也不容易学习。考虑到这一问题，本文在掩模分支中增加了一个预测模块，其损失函数收敛速度快得多。

一般来说，模型输出时会有很多目标框，具体的数目由锚的数量决定。有很多重复的框被放置在同一个目标上，NMS用来去除这些重复的框，得到真实的目标框。但是NMS有一个问题。如果一个物体出现在另一个物体的重叠区域，即当两个目标接近时，由于与该物体重叠区域过大而删除得分较低的框，这将导致该物体检测失败，降低算法的平均检测率。为了避免对NMS的删除，如果能够对其进行软处理，比如用较低的分数替换要删除的候选框架，则可以更准确地选择候选框架。所以Soft-NMS出现了。

Soft-NMS可以很容易地引入到目标检测算法中，不需要重新训练原来的模型，代码易于实现，并且不增加计算量(与整个目标检测算法相比)，并且很容易集成到当前所有使用NMS的目标检测算法中。本质上，NMS是Soft-NMS的一种特殊形式。当评分重置功能采用二值化功能时，Soft-NMS和NMS是一样的。Soft-NMS算法是一种较为通用的非最大抑制算法。NMS中使用的得分只是分类置信度得分，不能反映包围框的定位精度。分类置信度与定位置信度均不呈正相关。NMS只能解决分类置信度和固定位置置信度都很高的问题，但对于其他三种类型:无法解决“低分类置信度-低定位置信度”、“高分类置信度-低定位置信度”、“分类置信度-高定位置信度”的问题。对于Soft-NMS来说，它也是一种贪心算法，不能保证找到全局最优。这导致了Softer-NMS的出现。

Softer-NMS基于Soft-NMS，在预测的标注方差范围内对候选框进行加权和平均，使位置可靠性高的包围框具有更高的分类置信度。Softer-NMS将包围盒预测的标准差作为置信水平，使边界盒预测高斯分布和近似真实结果。在此基础上，Soft-NMS在Soft-NMS的基础上实现了"multiple frames in one"。如图所示，本文在Mask R-CNN中用SofterNMS替换了NMS。

experiments

从谷歌Earth下载了一个遥感图像数据集。数据集包含飞机、公园和汽车等对象。该数据集共有500幅图像，其中300幅用于训练，200幅用于测试。图片尺寸从5000×5000到800×800等。

本文方法在细节和目标完整性上的效果优于Mask R-CNN，作者分析，由于Mask R-CNN的分割是基于目标检测完成后再进行分割，结合Softer-NMS使得Mask R-CNN能够更有效地获得更精确的候选框，这为Mask R-CNN的精度分割提供了良好的基础。

如表I所示，将Mask R-CNN图像分割的平均准确率与本文方法进行比较。测试的对象包括汽车、船舶、公园、街道、飞机和建筑物。从表I可以看出，本文的方法比Mask R-CNN有很好的改进。

本文加入了预测分支，可以提前判断出区域像素是否为目标像素，这有助于提高后续分割的准确性，同时也使得函数对数据的拟合更好，收敛速度更快。

conclusion

本文将经典的Mask R-CNN与Softer-NMS相结合，在Mask R-CNN的基础上进行了一定的改进。实验结果验证了本文方法比Mask R-CNN更有效、更准确，可以在更短的时间内对目标进行分割，精度不低于Mask R-CNN，候选框的细节筛选也比以前更好。损失函数下降速度比Mask R-CNN更快，并能适应数据特征。在未来，可以尝试更强大的实例分割模型完善研究。

posted on 2023-11-03 18:53 小··明阅读(99) 评论(0) 收藏举报

刷新页面返回顶部