YOLO11: 目标检测新王登基
YOLO系列ultralytics团队再次突破,在精度略有提升的同时,减少了计算量,是目标检测的新goat。
YOLO11在COCO数据集上实现了更高的平均精度均值(mAP),同时使用的参数比YOLOv8减少了22%。这使得YOLO11在不牺牲准确度的情况下具有更高的计算效率,尤其适合在资源受限的设备上部署。
一、YOLO11的改进
1、Backbone
2、Neck
3、Head与双标签分配
4、正负样本匹配策略
5、Loss计算

添加图片注释,不超过 140 字(可选)
1、Backbone
C3K2:
C3K2模块是在传统C3模块的基础上进行改进设计的,旨在提高特征提取能力,特别是适应更复杂的任务和多尺度检测需求。
C3K2引入了多尺度的卷积核C3K,其中K为可调整的卷积核大小,如3x3、5x5等。这种设计可以扩展感受野,使模型能够捕捉更广泛的上下文信息,尤其适合大物体检测或背景复杂的场景。
C3K2模块通常将输入特征分为两部分,一部分通过普通的卷积操作直接传递,另一部分则通过多个C3K(当c3k参数设置为True时)或Bottleneck结构进行深度特征提取。最终两部分特征进行拼接,并通过1x1卷积进行融合。此结构既能保持轻量化,又能有效提取深层次特征。

添加图片注释,不超过 140 字(可选)
C2PSA:
C2PSA模块引入了金字塔切片注意力(PSA)机制。这一机制旨在优化模型在多尺度特征处理中的有效性,增强特征提取能力,从而提升目标检测的准确性和鲁棒性。
C2PSA模块是在C2f的机制的基础上,内部嵌入了一个多头注意力机制,从而形成了C2PSA模块。
C2PSA模块通过结合通道和空间信息,提供更有效的特征提取。它优化了前一层的特征图,并用注意力机制丰富它们,以提高模型的性能。
PSA是一种高效的局部自注意力模块,它将卷积后的特征一部分输入到由多头自注意力模块MHSA和前馈网络FFN组成的模块中,然后将两部分连接起来并通过卷积进行融合。增强全局建模能力,降低计算复杂度。

添加图片注释,不超过 140 字(可选)
Attention:

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)
2、Neck
Neck总体上还是PaNet结构,只是做了一些简单的模块替换。其中C3K2代替YOLOv8中的C2f。

添加图片注释,不超过 140 字(可选)
3、Head与双标签分配
解耦头:
Head部分从原先的耦合头变成了解耦头,并且从 YOLOv5 的 Anchor-Based 变成了 Anchor-Free。

添加图片注释,不超过 140 字(可选)
双标签分配:
YOLO11借鉴了YOLOv10的设计,实现了双头架构。
模型在训练期间使用两个预测头,一个使用一对多分配,另一个使用一对一分配。这样,模型可以在训练期间利用一对多分配的丰富监督信号,而在推理期间则使用一对一分配的预测结果,从而实现无NMS的高效推理。
一对一分配:仅一个预测框被分配给一个真实物体标签,避免了NMS,但由于监督信号较弱,容易导致收敛速度慢和性能欠佳。将YOLOv8使用的TAL中的topk设置为1,即每个标签将根据类别与回归的双重代价被分配至多一个正样本在训练阶段,该检测头的预测都只做一对一的标签分配。
一对多分配:在训练期间,多个预测框被分配给一个真实物体标签。这种策略提供了丰富的监督信号,优化效果更好。“一对多”检测头就是将特征金字塔输出的多尺度特征送给另一个检测头去做预测,只不过在训练阶段,这个检测头的预测采用一对多的标签分配策略(TAL中的topk设置为10,即YOLOv8的默认设置)。

添加图片注释,不超过 140 字(可选)
DWConv:
深度可分离卷积是一种轻量级的卷积操作,旨在减少参数量和运算量。
DWConv由两个主要部分组成:深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)。
Depthwise Convolution的一个卷积核负责一个通道,一个通道只被一个卷积核卷积。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)
4、正负样本匹配策略
Yolo11算法中直接引用了TOOD中的Task-Aligned Assigner正负样本分配策略。
TaskAlignedAssigner 的匹配策略简单总结为: 根据分类与回归的分数加权的分数选择正样本。

添加图片注释,不超过 140 字(可选)
其中,s是标注类别对应的预测分值,u是预测框和GT Box的IoU,两者相乘即可衡量对齐程度(Task-Alignment)。α和β是权重超参数。
t可以同时控制分类得分和IoU的优化来实现Task-Alignment,从而引导网络动态关注高质量的anchor。当类别分值越高且IoU越高时,t的值就越接近于1。
匹配流程:
1)计算s
实际目标类别标签gr_labels在所有预测类别分数pred_labels中对应的分数s
2)计算u
目标位置标签gt_bboxes和所有预测的位置pre_bboxes的CIOU值u
3)计算对齐分数

添加图片注释,不超过 140 字(可选)
4)初筛正样本
选取中心点在gt_bboxes内的预测点作为正样本匹配位置
5)精选正样本
根据对齐分数在初筛的正样本中进一步选取top_K个预测点作为正样本匹配位置。
6)过滤正样本
若一个预测点匹配到多个gt_bbox,则选取最大CIOU的gt作为该预测点匹配的正样本。
5、Loss计算
loss可以看出,不再有之前的置信度损失,只有解耦的分类和回归分支。
在分类上使用交叉熵损失函数,回归分支使用了 Distribution Focal Loss 中提出的积分形式表示法和CIOU。

添加图片注释,不超过 140 字(可选)
Focal Loss:

添加图片注释,不超过 140 字(可选)
其中,1为ground-truth类,表示前景类的预测概率。如公式所示,调制因子可以减少简单样例的损失贡献,相对增加误分类样例的重要性。
减少易分类样本的损失贡献:当预测概率p接近1(即样本容易分类)时,(1 - p)^γ会非常小,从而减少了这些样本对损失的贡献。
增加难分类样本的损失权重:当预测概率p接近0(即样本难以分类)时,(1 - p)^γ会变大,从而增加了这些样本对损失的权重,使模型更加关注这些难分类的样本。
平衡正负样本的影响:通过调整平衡因子α,Focal Loss可以平衡正负样本对损失的贡献,防止负样本过多地主导损失函数。

添加图片注释,不超过 140 字(可选)
DFL Loss:
Distribution Focal Loss损失的提出主要是为了解决bbox的表示不够灵活(inflexible representation)问题。
传统目标检测,尤其是复杂场景中,目标物体的真实边界框的定义其实是无法精确给出的(包括标注人的主观倾向,或是遮挡、模糊等造成的边界歧义及不确定性)。比如水中的帆板边界、被遮挡的大象边界,其实都很难去界定一个精确的位置。
传统的回归方法直接使预测值向一个离散的确定值(标签位置y )进行逼近。针对上方所述的场景,回归一个分布范围相比于逼近一个离散值更符合事实。DFL损失就是基于这样的思想,将框的位置建模成一个general distribution,让网络能够快速地聚焦于标签位置y 附近范围的位置分布。但是如果分布过于随意,网络学习的效率可能不会高,因为一个积分目标可能对应无穷多种分布模式。考虑到真实的分布通常不会距离标注的位置太远,因此Distribution Focal Loss选择优化标签y附近左右两个位置(yi与yi+1)的概率,使得网络分布聚焦到标签值附近。DFL是以概率的方式对预测box进行回归。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)
6、原理与源码详细解读
《YOLO11:目标检测原理与源码》课程致力于帮助学生学习YOLO11目标检测算法的原理与源码。常心老师将手把手从0开始解读YOLO11工程目录结构,解读YOLO11的Backbone,Neck,Head网络结构原理与源码,解读训练全流程的原理与源码,解读推理全流程的原理与源码。本课程涉及到的知识包括CBS、C3K2、SPPF、C2PSA、Attention、PANet、Head、数据增强、正负样本匹配机制、Loss计算、DFL、优化器、评价指标、NMS等原理与源码。
添加图片注释,不超过 140 字(可选)
——————
浅谈则止,细致入微AI大道理
扫描下方“AI大道理”,选择“关注”公众号
—————————————————————
—————————————————————
公众号《AI大道理》征稿函mp.weixin.qq.com/s?__biz=MzU5NTg2MzIxMw==&mid=2247489802&idx=1&sn=228c18ad3a11e731e8f325821c184a82&chksm=fe6a2ac8c91da3dec311bcde280ad7ee760c0c3e08795604e0f221ff23c89c43a86c6355390f&scene=21#wechat_redirect
|
YOLO11: 目标检测新王登基mp.weixin.qq.com/s/TOM8Thyhr1yOlq1sFwTk6Q?token=252033425&lang=zh_CN
萍水相逢逢萍水,浮萍之水水浮萍!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架