Using the Improved Mask R-cnn and Softer-nms for Target Segmentation of Remote Sensing Image
利用改进的mask R-cnn和soft -nms进行遥感图像目标分割
Author(s): Yiwen Wang, Cheng Huang and Yunbo Rao Presenter: Yiwen Wang, University of Electronic Science and Technology of China, China
内容 | 描述 | |
---|---|---|
论文信息 | - 论文标题:利用改进的Mask R-cnn和 Softer-nms 进行遥感图像目标分割 Using the Improved Mask R-cnn and Softer-nms for Target Segmentation of Remote Sensing Image | - 作者:Yiwen Wang, Cheng Huang and Yunbo Rao - 发表日期:2021 - 期刊或会议名称:PRAI |
摘要概要 | 对Mask R-CNN进行改进,加入了预测模块,解决Mask R-CNN训练慢的问题,并用softer-NMS代替NMS。该模型可以很好地捕捉边缘,从而更准确地分割遥感目标。检测的准确性也有很好的提高 - 关键词:mask R-CNN, Softer-NMS, remote image, target segmentation | |
主要研究问题 | 本文使用的模型基于Mask R-CNN进行了改进,并与最新的候选框算法 Softer-NMS 相结合,完成了遥感图像的分割任务。 | |
主要贡献 | 1. 对Mask R-CNN的结构做了一点改进,使其收敛速度更快,同时不损失分割精度。 2. 将Mask R-CNN中的NMS算法替换为Softer-NMS,这使得Mask R-CNN在候选框的生成和选择上更加准确。 | |
方法 | Mask R-CNN 有一个小缺陷。当 Mask R-CNN 的 ROI Align 处理 feature map 时,训练会非常慢。与单独使用 ROI Align 相比非常缓慢。此外,由于 Mask R-CNN 发送到ROI Align的图片数量庞大,Mask R-CNN的分割分支也不容易学习。考虑到这一问题,论文在掩模分支中增加了一个预测模块。由于这种改进,其损失函数收敛速度快得多。 NMS在两个目标接近时,由于重叠区域过大,得分较低的框被删除,这将降低算法的平均检测率。Soft-NMS 和 Softer-NMS 对这一现象而提出。论文将Mask R-CNN中的NMS算法替换为Softer-NMS | ![]() |
实验设计 | - 数据:从谷歌Earth下载了一个遥感图像数据集。数据集包含飞机、公园和汽车等对象。该数据集共有500幅图像,其中300幅用于训练,200幅用于测试。图片尺寸从5000×5000到800×800等。 | - 论文中的主要结果和发现: 本文方法在细节和目标完整性上的效果优于Mask R-CNN,作者分析,由于Mask R-CNN的分割是基于目标检测完成后再进行分割,结合Softer-NMS使得Mask R-CNN能够更有效地获得更精确的候选框,这为Mask R-CNN的分割提供了良好的基础。 本文加入了预测分支,可以提前判断出区域像素是否为目标像素,这有助于提高后续分割的准确性,同时也使得函数对数据的拟合更好,收敛速度更快。 |
结论 | 本文将经典的Mask R-CNN与Softer-NMS相结合,在Mask R-CNN的基础上进行了一定的改进。实验结果验证了本文方法比Mask R-CNN更有效、更准确,可以在更短的时间内对目标进行分割,精度不低于Mask R-CNN,候选框的细节筛选也比以前更好。损失函数下降速度比Mask R-CNN更快,并能适应数据特征。在未来,可以尝试更强大的实例分割模型完善研究。 | |
个人评价 | 本文对Mask R-CNN进行改进,加入了预测模块,解决Mask R-CNN训练慢的问题,并用softer-NMS代替NMS。 本文方法的精度提高主要是由于Softer-NMS使得Mask R-CNN能够更有效地获得更精确的候选框,这为分割任务提供了良好的基础。加入了预测分支,可以提前判断出区域像素是否为目标像素,这有助于提高后续分割的准确性,加快了损失函数下降速度。 | 本文没有提供开源代码,另外相较于原始的Mask R-CNN精度提高的幅度有限。 |
Abstract
近年来,将遥感图像处理与深度学习方法相结合日益流行。本文结合已有的实例分割模型Mask R-CNN和目标检测算法Softer-NMS,提出了一种基于Mask R-CNN 改进的模型。该模型可以很好地捕捉边缘,从而更准确地分割目标。实验结果也验证了该方法的有效性。与原型Mask R-CNN相比,本文方法提高了整体分割精度,并且掩模分支的 loss 函数和 RPN 候选帧的 loss 函数下降速度比原始模型快。另外,检测的准确性也有很好的提高。
introduction
遥感图像的目标提取和分割是近年来图像领域的热点问题。随着遥感技术的快速发展和对地观测卫星种类的不断增多,卫星图像数据集的数据量也比以前大得多。遥感图像中目标的提取和分割面临的挑战包括:图像中目标大小不一、小目标边界难以确定和分割、天气环境引入的干扰因素、卫星图像数据集数据量大等。
在数据量不大的情况下,机器学习和深度学习的效果是可以比较的。随着数据量的增加,深度学习在挖掘数据隐藏关系方面优于机器学习。深度学习方法不需要特征工程。随着遥感技术的逐步发展,遥感技术的应用也越来越广泛。传统的机器学习方法,例如SVM在处理大量的数据时显得有些笨拙。
主要贡献
-
对Mask R-CNN的结构做了一点改进,使其收敛速度更快,同时不损失分割精度。
-
将Mask R-CNN中的NMS算法替换为Softer-NMS,这使得Mask R-CNN在候选框的生成和选择上更加准确。
methodology
像Faster R-CNN一样,Mask R-CNN也可以分为两个步骤。第一步是将图像输入到FPN网络,得到feature map。该feature map将进入RPN网络生成candidate frame,并与原始feature map结合,形成具有多个candidate frame的图像。第二步是对这些图像进行NMS和ROI Align处理,然后在ROI Align处理后进入全连接层。最后,图像将经过三个分支的处理,得到具有confidence score, candidate frame and segmentation area。
但是Mask R-CNN有一个小缺陷。当Mask R-CNN的ROI对齐处理feature map时,训练会非常慢。与单独使用ROI Align的训练速度相比非常缓慢。此外,由于Mask R-CNN发送到ROI Align的图片数量庞大,Mask R-CNN的分割分支也不容易学习。考虑到这一问题,本文在掩模分支中增加了一个预测模块,其损失函数收敛速度快得多。
一般来说,模型输出时会有很多目标框,具体的数目由锚的数量决定。有很多重复的框被放置在同一个目标上,NMS用来去除这些重复的框,得到真实的目标框。但是NMS有一个问题。如果一个物体出现在另一个物体的重叠区域,即当两个目标接近时,由于与该物体重叠区域过大而删除得分较低的框,这将导致该物体检测失败,降低算法的平均检测率。为了避免对NMS的删除,如果能够对其进行软处理,比如用较低的分数替换要删除的候选框架,则可以更准确地选择候选框架。所以Soft-NMS出现了。
Soft-NMS可以很容易地引入到目标检测算法中,不需要重新训练原来的模型,代码易于实现,并且不增加计算量(与整个目标检测算法相比),并且很容易集成到当前所有使用NMS的目标检测算法中。本质上,NMS是Soft-NMS的一种特殊形式。当评分重置功能采用二值化功能时,Soft-NMS和NMS是一样的。Soft-NMS算法是一种较为通用的非最大抑制算法。NMS中使用的得分只是分类置信度得分,不能反映包围框的定位精度。分类置信度与定位置信度均不呈正相关。NMS只能解决分类置信度和固定位置置信度都很高的问题,但对于其他三种类型:无法解决“低分类置信度-低定位置信度”、“高分类置信度-低定位置信度”、“分类置信度-高定位置信度”的问题。对于Soft-NMS来说,它也是一种贪心算法,不能保证找到全局最优。这导致了Softer-NMS的出现。
Softer-NMS基于Soft-NMS,在预测的标注方差范围内对候选框进行加权和平均,使位置可靠性高的包围框具有更高的分类置信度。Softer-NMS将包围盒预测的标准差作为置信水平,使边界盒预测高斯分布和近似真实结果。在此基础上,Soft-NMS在Soft-NMS的基础上实现了"multiple frames in one"。如图所示,本文在Mask R-CNN中用SofterNMS替换了NMS。
experiments
从谷歌Earth下载了一个遥感图像数据集。数据集包含飞机、公园和汽车等对象。该数据集共有500幅图像,其中300幅用于训练,200幅用于测试。图片尺寸从5000×5000到800×800等。
本文方法在细节和目标完整性上的效果优于Mask R-CNN,作者分析,由于Mask R-CNN的分割是基于目标检测完成后再进行分割,结合Softer-NMS使得Mask R-CNN能够更有效地获得更精确的候选框,这为Mask R-CNN的精度分割提供了良好的基础。
如表I所示,将Mask R-CNN图像分割的平均准确率与本文方法进行比较。测试的对象包括汽车、船舶、公园、街道、飞机和建筑物。从表I可以看出,本文的方法比Mask R-CNN有很好的改进。
本文加入了预测分支,可以提前判断出区域像素是否为目标像素,这有助于提高后续分割的准确性,同时也使得函数对数据的拟合更好,收敛速度更快。


conclusion
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~