IoU-aware Single-stage Object Detector for Accurate Localization
网络的结构如下:
采用FPN结构,Backbone是RetinalNet,分成了P3~P7共5个Layer,分别训练不同尺寸的Box.每个Layer对应的Head有2个分支,包括一个单独的分支用来预测分类,另一个分支用来预测两部分,一部分是Box坐标的回归,另一部分是GT Box和Anchor之间的IOU,这也是这篇论文的主要创新点,Faster RCNN等方法是对Anchor进行分类,与GT Box的IOU高于0.7的是正例,低于0.3的是负例,而这篇论文直接预测GT Box和Anchor之间的IOU.
Loss Function包括3个部分:分类损失,包括正例和负例,采用Focal Loss作为损失函数;回归损失,采用Smooth L1作为损失函数;IOU由于在0~1之间,采用Binary cross-entropy作为损失函数.
推理时采用分类值和IOU的值的乘积作为预测框的置信度,也就是排序的依据,其中α用来调整两者的权重.
标签:
Binary cross-entropy
, Smooth L1
, Focal Loss
, IoU
, GT Box
, RetinalNet
, FPN
, IoU-aware
, Anchor
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)