经典重塑-yolov5网络结构的故事

网络模型及网络结构

网络结构详情

代码的整体目录

代码detect.py测试

YOLOv5是一种单阶段目标检测算法，该算法在YOLOv4的基础上添加了一些新的改进思路，使其速度与精度都得到了极大的性能提升。YOLOv5融合了数千小时研发过程中学到的经验教训和最佳实践。

官方文档：Quick Start - YOLOv5 Documentation (ultralytics.com)

代码仓库：ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite (github.com)

网络模型及网络结构

网络结构详情

代码的整体目录

代码detect.py测试

各个模块

整体结构

其他资料

来着江大白（官方一直在更新，图不一定准）和yolov5官方

4种网络的宽度

yolov5各个网络模型性能比较

yolov5结构

yolov5四种网络的深度

yolov5网络结构图

一些工具代码

voc2yolo.py

from os import getcwd
import glob
 
classes = ["face", "face_mask"]
 
def convert(size, box):
    dw = 1.0 / size[0]
    dh = 1.0 / size[1]
    x = (box[0] + box[1]) / 2.0
    y = (box[2] + box[3]) / 2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return (x, y, w, h)
 
def convert_annotation(image_name):
    in_file = './val/xmls/' + image_name[:-3] + 'xml' # xml文件路径
    out_file = open('./val/labels/' + image_name[:-3] + 'txt', 'w')  # 转换后的txt文件存放路径
    with open(in_file) as f:
        try:
            import xml.etree.cElementTree as ET
        except ImportError:
            import xml.etree.ElementTree as ET
        tree = ET.parse(f)  # <class 'xml.etree.ElementTree.ElementTree'>
        root = tree.getroot()  # 获取根节点 <Element 'data' at 0x02BF6A80>
        #
        # xml_text = f.read()
        # root = ET.fromstring(xml_text)
        size = root.find('size')
        if size is not None:
            w = int(size.find('width').text)
            h = int(size.find('height').text)
            for obj in root.iter('object'):
                cls = obj.find('name').text
                if cls not in classes:
                    # print(cls)
                    continue
                cls_id = classes.index(cls)
                xmlbox = obj.find('bndbox')
                b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
                     float(xmlbox.find('ymax').text))
                if w != 0 and h != 0:
                    bb = convert((w, h), b)
                    out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
wd = getcwd()
 
if __name__ == '__main__':
    for image_path in glob.glob("./val/images/*.jpg"):  # 每一张图片都对应一个xml文件这里写xml对应的图片的路径
        image_name = image_path.split('\\')[-1]
        convert_annotation(image_name)

总结

YOLOv5(You Only Look Once)是由 UitralyticsLLC公司发布的一种单阶段目标检测算

法，YOLOv5 相比YOLOv4 而言，在检测平均精度降低不多的基础上，具有均值权重文件更

小，训练时间和推理速度更短的特点。YOLOv5 的网络结构分为输入端、BackboneNeck、

Head 四个部分。

输入端主要包括 Mosaic 数据增强、图片尺寸处理以及自适应锚框计算三部分。Mosaic

数据增强将四张图片进行组合，达到丰富图片背景的效果；图片尺寸处理对不同长宽的原始图

像自适应的添加最少的黑边，统一缩放为标准尺寸；自适应锚框计算在初始锚框的基础上，将

输出预测框与真实框进行比对，计算差距后再反向更新，不断迭代参数来获取最合适的锚框

值。

Backbone 主要包含了 BottleneckCSP和 Focus 模块。BottleneckCSP 模块在增

强整个卷积神经网络学习性能的同时大幅减少了计算量；Focus 模块对图片进行切片操作，将

输入通道扩充为原来的 4 倍，并经过一次卷积得到下采样特征图，在实现下采样的同时减少了

计算量并提升了速度。

Neck 中采用了 FPN 与 PAN 结合的结构，将常规的 FPN 层与自底向上的特征金字塔进行结

合，将所提取的语义特征与位置特征进行融合，同时将主干层与检测层进行特征融合，使模型

获取更加丰富的特征信息。

Head 输出一个向量，该向量具有目标对象的类别概率、对象得分和该对象边界框的位置。检

测网络由三层检测层组成，不同尺寸的特征图用于检测不同尺寸的目标对象。每个检测层输出

相应的向量，最后生成原图像中目标的预测边界框和类别并进行标记。

posted @ 2022-09-28 09:22 海_纳百川阅读(308) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

不积跬步无以至千里

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己

经典重塑-yolov5网络结构的故事

网络模型及网络结构

网络结构详情

代码的整体目录

代码detect.py测试

各个模块

整体结构

其他资料

4种网络的宽度

yolov5各个网络模型性能比较

yolov5结构

yolov5四种网络的深度

yolov5网络结构图

一些工具代码

voc2yolo.py

总结

公告

不积跬步无以至千里

研究领域：深度学习，图像处理 联系方式：vladimirputin@foxmail.com 不必高看自己，也不必贬低自己

经典重塑-yolov5网络结构的故事

网络模型及网络结构

网络结构详情

代码的整体目录

代码detect.py测试

各个模块

整体结构

其他资料

4种网络的宽度

yolov5各个网络模型性能比较

yolov5结构

yolov5四种网络的深度

yolov5网络结构图

一些工具代码

voc2yolo.py

总结

公告

研究领域：深度学习，图像处理
联系方式：vladimirputin@foxmail.com
不必高看自己，也不必贬低自己