Using the Improved Mask R-cnn and Softer-nms for Target Segmentation of Remote Sensing Image

Using the Improved Mask R-cnn and Softer-nms for Target Segmentation of Remote Sensing Image

利用改进的mask R-cnn和soft -nms进行遥感图像目标分割

Author(s): Yiwen Wang, Cheng Huang and Yunbo Rao Presenter: Yiwen Wang, University of Electronic Science and Technology of China, China

Wang Y, Rao Y, Huang C, et al. Using the improved mask R-CNN and softer-NMS for target segmentation of remote sensing image[C]//2021 4th International Conference on Pattern Recognition and Artificial Intelligence (PRAI). IEEE, 2021: 91-95.

 

内容描述 
论文信息 - 论文标题:利用改进的Mask R-cnn和 Softer-nms 进行遥感图像目标分割 Using the Improved Mask R-cnn and Softer-nms for Target Segmentation of Remote Sensing Image - 作者:Yiwen Wang, Cheng Huang and Yunbo Rao - 发表日期:2021 - 期刊或会议名称:PRAI
摘要概要 对Mask R-CNN进行改进,加入了预测模块,解决Mask R-CNN训练慢的问题,并用softer-NMS代替NMS。该模型可以很好地捕捉边缘,从而更准确地分割遥感目标。检测的准确性也有很好的提高 - 关键词:mask R-CNN, Softer-NMS, remote image, target segmentation  
主要研究问题 本文使用的模型基于Mask R-CNN进行了改进,并与最新的候选框算法 Softer-NMS 相结合,完成了遥感图像的分割任务。  
主要贡献 1. 对Mask R-CNN的结构做了一点改进,使其收敛速度更快,同时不损失分割精度。 2. 将Mask R-CNN中的NMS算法替换为Softer-NMS,这使得Mask R-CNN在候选框的生成和选择上更加准确。  
方法 Mask R-CNN 有一个小缺陷。当 Mask R-CNN 的 ROI Align 处理 feature map 时,训练会非常慢。与单独使用 ROI Align 相比非常缓慢。此外,由于 Mask R-CNN 发送到ROI Align的图片数量庞大,Mask R-CNN的分割分支也不容易学习。考虑到这一问题,论文在掩模分支中增加了一个预测模块。由于这种改进,其损失函数收敛速度快得多。 NMS在两个目标接近时,由于重叠区域过大,得分较低的框被删除,这将降低算法的平均检测率。Soft-NMS 和 Softer-NMS 对这一现象而提出。论文将Mask R-CNN中的NMS算法替换为Softer-NMS image-20231020195238722
实验设计 - 数据:从谷歌Earth下载了一个遥感图像数据集。数据集包含飞机、公园和汽车等对象。该数据集共有500幅图像,其中300幅用于训练,200幅用于测试。图片尺寸从5000×5000到800×800等。 - 论文中的主要结果和发现: 本文方法在细节和目标完整性上的效果优于Mask R-CNN,作者分析,由于Mask R-CNN的分割是基于目标检测完成后再进行分割,结合Softer-NMS使得Mask R-CNN能够更有效地获得更精确的候选框,这为Mask R-CNN的分割提供了良好的基础。 本文加入了预测分支,可以提前判断出区域像素是否为目标像素,这有助于提高后续分割的准确性,同时也使得函数对数据的拟合更好,收敛速度更快。
结论 本文将经典的Mask R-CNN与Softer-NMS相结合,在Mask R-CNN的基础上进行了一定的改进。实验结果验证了本文方法比Mask R-CNN更有效、更准确,可以在更短的时间内对目标进行分割,精度不低于Mask R-CNN,候选框的细节筛选也比以前更好。损失函数下降速度比Mask R-CNN更快,并能适应数据特征。在未来,可以尝试更强大的实例分割模型完善研究。  
个人评价 本文对Mask R-CNN进行改进,加入了预测模块,解决Mask R-CNN训练慢的问题,并用softer-NMS代替NMS。 本文方法的精度提高主要是由于Softer-NMS使得Mask R-CNN能够更有效地获得更精确的候选框,这为分割任务提供了良好的基础。加入了预测分支,可以提前判断出区域像素是否为目标像素,这有助于提高后续分割的准确性,加快了损失函数下降速度。 本文没有提供开源代码,另外相较于原始的Mask R-CNN精度提高的幅度有限。

 

Abstract

近年来,将遥感图像处理与深度学习方法相结合日益流行。本文结合已有的实例分割模型Mask R-CNN和目标检测算法Softer-NMS,提出了一种基于Mask R-CNN 改进的模型。该模型可以很好地捕捉边缘,从而更准确地分割目标。实验结果也验证了该方法的有效性。与原型Mask R-CNN相比,本文方法提高了整体分割精度,并且掩模分支的 loss 函数和 RPN 候选帧的 loss 函数下降速度比原始模型快。另外,检测的准确性也有很好的提高。

introduction

遥感图像的目标提取和分割是近年来图像领域的热点问题。随着遥感技术的快速发展和对地观测卫星种类的不断增多,卫星图像数据集的数据量也比以前大得多。遥感图像中目标的提取和分割面临的挑战包括:图像中目标大小不一、小目标边界难以确定和分割、天气环境引入的干扰因素、卫星图像数据集数据量大等。

在数据量不大的情况下,机器学习和深度学习的效果是可以比较的。随着数据量的增加,深度学习在挖掘数据隐藏关系方面优于机器学习。深度学习方法不需要特征工程。随着遥感技术的逐步发展,遥感技术的应用也越来越广泛。传统的机器学习方法,例如SVM在处理大量的数据时显得有些笨拙。

主要贡献

  1. 对Mask R-CNN的结构做了一点改进,使其收敛速度更快,同时不损失分割精度。

  2. 将Mask R-CNN中的NMS算法替换为Softer-NMS,这使得Mask R-CNN在候选框的生成和选择上更加准确。

methodology

image-20231020195238722

像Faster R-CNN一样,Mask R-CNN也可以分为两个步骤。第一步是将图像输入到FPN网络,得到feature map。该feature map将进入RPN网络生成candidate frame,并与原始feature map结合,形成具有多个candidate frame的图像。第二步是对这些图像进行NMS和ROI Align处理,然后在ROI Align处理后进入全连接层。最后,图像将经过三个分支的处理,得到具有confidence score, candidate frame and segmentation area。

但是Mask R-CNN有一个小缺陷。当Mask R-CNN的ROI对齐处理feature map时,训练会非常慢。与单独使用ROI Align的训练速度相比非常缓慢。此外,由于Mask R-CNN发送到ROI Align的图片数量庞大,Mask R-CNN的分割分支也不容易学习。考虑到这一问题,本文在掩模分支中增加了一个预测模块,其损失函数收敛速度快得多。

一般来说,模型输出时会有很多目标框,具体的数目由锚的数量决定。有很多重复的框被放置在同一个目标上,NMS用来去除这些重复的框,得到真实的目标框。但是NMS有一个问题。如果一个物体出现在另一个物体的重叠区域,即当两个目标接近时,由于与该物体重叠区域过大而删除得分较低的框,这将导致该物体检测失败,降低算法的平均检测率。为了避免对NMS的删除,如果能够对其进行软处理,比如用较低的分数替换要删除的候选框架,则可以更准确地选择候选框架。所以Soft-NMS出现了。

Soft-NMS可以很容易地引入到目标检测算法中,不需要重新训练原来的模型,代码易于实现,并且不增加计算量(与整个目标检测算法相比),并且很容易集成到当前所有使用NMS的目标检测算法中。本质上,NMS是Soft-NMS的一种特殊形式。当评分重置功能采用二值化功能时,Soft-NMS和NMS是一样的。Soft-NMS算法是一种较为通用的非最大抑制算法。NMS中使用的得分只是分类置信度得分,不能反映包围框的定位精度。分类置信度与定位置信度均不呈正相关。NMS只能解决分类置信度和固定位置置信度都很高的问题,但对于其他三种类型:无法解决“低分类置信度-低定位置信度”、“高分类置信度-低定位置信度”、“分类置信度-高定位置信度”的问题。对于Soft-NMS来说,它也是一种贪心算法,不能保证找到全局最优。这导致了Softer-NMS的出现。

Softer-NMS基于Soft-NMS,在预测的标注方差范围内对候选框进行加权和平均,使位置可靠性高的包围框具有更高的分类置信度。Softer-NMS将包围盒预测的标准差作为置信水平,使边界盒预测高斯分布和近似真实结果。在此基础上,Soft-NMS在Soft-NMS的基础上实现了"multiple frames in one"。如图所示,本文在Mask R-CNN中用SofterNMS替换了NMS。

experiments

从谷歌Earth下载了一个遥感图像数据集。数据集包含飞机、公园和汽车等对象。该数据集共有500幅图像,其中300幅用于训练,200幅用于测试。图片尺寸从5000×5000到800×800等。

本文方法在细节和目标完整性上的效果优于Mask R-CNN,作者分析,由于Mask R-CNN的分割是基于目标检测完成后再进行分割,结合Softer-NMS使得Mask R-CNN能够更有效地获得更精确的候选框,这为Mask R-CNN的精度分割提供了良好的基础。

如表I所示,将Mask R-CNN图像分割的平均准确率与本文方法进行比较。测试的对象包括汽车、船舶、公园、街道、飞机和建筑物。从表I可以看出,本文的方法比Mask R-CNN有很好的改进。

image-20231020204605553

image-20231020204503980

本文加入了预测分支,可以提前判断出区域像素是否为目标像素,这有助于提高后续分割的准确性,同时也使得函数对数据的拟合更好,收敛速度更快。

 

 

conclusion

本文将经典的Mask R-CNN与Softer-NMS相结合,在Mask R-CNN的基础上进行了一定的改进。实验结果验证了本文方法比Mask R-CNN更有效、更准确,可以在更短的时间内对目标进行分割,精度不低于Mask R-CNN,候选框的细节筛选也比以前更好。损失函数下降速度比Mask R-CNN更快,并能适应数据特征。在未来,可以尝试更强大的实例分割模型完善研究。

posted @   小··明  阅读(71)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~
点击右上角即可分享
微信分享提示