yolov3.cfg参数说明及调参经验

对代码中配置文件yolov3.cfg部分解释：

# Testing(此处下面的两行，测试的时候开启即可)
#batch=1                 # 每batch个样本更新一次参数。
#subdivisions=1          # 如果内存不够大，将batch分割为subdivisions个子batch，每个子batch的大小为batch/subdivisions。

# Training(此处下面的两行，训练的时候开启即可)
batch=64                 # 表示网络积累多少个样本后进行一次正向传播
subdivisions=16          # 将一个batch的图片分sub次完成网络的正向传播

width=416                # 输入图像的宽
height=416               # 输入图像的高
channels=3               # 输入图像的通道数
momentum=0.9             # 动量系数
decay=0.0005             # 权重衰减正则项，防止过拟合

# 下面四行，是数据增强的参数
angle=0                  # 通过旋转角度来生成更多训练样本
saturation = 1.5         # 通过调整饱和度来生成更多训练样本
exposure = 1.5           # 通过调整曝光量来生成更多训练样本
hue=.1                   # 通过调整色调来生成更多训练样本

learning_rate=0.001      # 初始学习率
burn_in=1000             #
max_batches = 500200     # 训练达到max_batches后停止学习
policy=steps             # 调整学习率的policy，有如下policy：CONSTANT, STEP, EXP, POLY, STEPS, SIG, RANDOM
steps=400000,450000      # 根据batch_num调整学习率
scales=.1,.1             # 学习率变化的比例，累计相乘

[convolutional]
batch_normalize=1        # 是否做BN
filters=32               # 卷积核的个数，也是输出的特征图的维度
size=3                   # 卷积核的尺寸3*3
stride=1                 # 做卷积运算的步长
pad=1                    # 如果pad为0,padding由 padding参数指定。如果pad为1，padding大小为size/2
activation=leaky         # 常用激活函数：logistic，relu，leaky，tanh

[net]
batch=64 表示网络积累多少个样本后进行一次BP

subdivisions=16              这个参数表示将一个batch的图片分sub次完成网络的前向传播，程中将一次性加载64张图片进内存，然后分16次完成前向传播，意思是每次4张，前向传播的循环过程中
                             累加loss求平均，待64张图片都完成前向传播后，再一次性后传更新参数
                             调参经验：sub一般设置16，不能太大或太小，且为8的倍数，其实也没啥硬性规定，看着舒服就好
                             batch的值可以根据显存占用情况动态调整，一次性加减sub大小即可，通常情况下batch越大越好，还需
                             注意一点，在测试的时候batch和sub都设置为1，避免发生神秘错误！

width=608                    网络输入的宽width
height=608                   网络输入的高height
channels=3                   网络输入的通道数channels
                             width和height一定要为32的倍数，否则不能加载网络
                             提示：width也可以设置为不等于height，通常情况下，width和height的值越大，对于小目标的识别
                             效果越好，但受到了显存的限制，读者可以自行尝试不同组合

momentum=0.9                 动量 DeepLearning1中最优化方法中的动量参数，这个值影响着梯度下降到最优值得速度
decay=0.0005                 权重衰减正则项，防止过拟合

angle=0                      数据增强参数，通过旋转角度来生成更多训练样本
saturation = 1.5             数据增强参数，通过调整饱和度来生成更多训练样本
exposure = 1.5               数据增强参数，通过调整曝光量来生成更多训练样本
hue=.1                       数据增强参数，通过调整色调来生成更多训练样本

learning_rate=0.001          学习率决定着权值更新的速度，设置得太大会使结果超过最优值，太小会使下降速度过慢。
                             如果仅靠人为干预调整参数，需要不断修改学习率。刚开始训练时可以将学习率设置的高一点，
                             而一定轮数之后，将其减小在训练过程中，一般根据训练轮数设置动态变化的学习率。
                             刚开始训练时：学习率以 0.01 ~ 0.001 为宜。一定轮数过后：逐渐减缓。
                             接近训练结束：学习速率的衰减应该在100倍以上。
                             学习率调整一定不要太死，实际训练过程中根据loss的变化和其他指标动态调整，手动ctrl+c结
                             束此次训练后，修改学习率，再加载刚才保存的模型继续训练即可完成手动调参，调整的依据是根据训练
                             日志来，如果loss波动太大，说明学习率过大，适当减小，变为1/5，1/10均可，如果loss几乎不变，
                             可能网络已经收敛或者陷入了局部极小，此时可以适当增大学习率，注意每次调整学习率后一定要训练久
                             一点，充分观察，调参是个细活，慢慢琢磨
                             一点小说明：实际学习率与GPU的个数有关，例如你的学习率设置为0.001，如果你有4块GPU，那
                             真实学习率为0.001/4
burn_in=1000                 在迭代次数小于burn_in时，其学习率的更新有一种方式，大于burn_in时，才采用policy的更新方式
max_batches = 500200         训练次数达到max_batches后停止学习，一次为跑完一个batch

policy=steps                 学习率调整的策略：constant, steps, exp, poly, step, sig, RANDOM，constant等方式

steps=400000,450000          steps和scale是设置学习率的变化，比如迭代到400000次时，学习率衰减十倍，45000次迭代时，学
scales=.1,.1                 习率又会在前一个学习率的基础上衰减十倍

[convolutional]为卷积层，详细注释如下:

[convolutional]              一层卷积层的配置说明
batch_normalize=1            是否进行BN处理
filters=32                   卷积核个数，也是输出通道数
size=3                       卷积核尺寸
stride=1                     卷积步长
pad=1                        卷积时是否进行0 padding,padding的个数与卷积核尺寸有关，为size/2向下取整，如3/2=1
activation=leaky             网络层激活函数
                             卷积核尺寸3*3配合padding且步长为1时，不改变feature map的大小

[shortcut]层详细注释如下:

[shortcut]                   shotcut层配置说明
from=-3                      与前面的多少次进行融合，-3表示前面第三层
activation=linear            层次激活函数

[yolo]层详细注释如下:

[yolo]                       YOLO层配置说明
mask = 0,1,2                 使用anchor的索引，0，1，2表示使用下面定义的anchors中的前三个anchor
anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326
classes=80                   类别数目
num=9                        每个grid cell总共预测几个box,和anchors的数量一致。当想要使用更多anchors时需要调大num
jitter=.3                    数据增强手段，此处jitter为随机调整宽高比的范围
ignore_thresh = .7
truth_thresh = 1             参与计算的IOU阈值大小.当预测的检测框与ground truth的IOU大于ignore_thresh的时候，参与
                             loss的计算，否则，检测框的不参与loss计算。
                             理解：目的是控制参与loss计算的检测框的规模，当ignore_thresh过于大，接近于1的时候，那么参与
                             检测框回归loss的个数就会比较少，同时也容易造成过拟合；而如果ignore_thresh设置的过于小，那么
                             参与计算的会数量规模就会很大。同时也容易在进行检测框回归的时候造成欠拟合。
                             参数设置：一般选取0.5-0.7之间的一个值，之前的计算基础都是小尺度（13*13）用的是0.7，（26*26）用的是0.5。这次先将0.5更改为0.7。

random=1                     为1打开随机多尺度训练，为0则关闭
                             提示：当打开随机多尺度训练时，前面设置的网络输入尺寸width和height其实就不起作用了，width
                             会在320到608之间随机取值，且width=height，没10轮随机改变一次，一般建议可以根据自己需要修改
                             随机尺度训练的范围，这样可以增大batch

调参经验：^[1]

在Darknet中，batch和subdivisions是结合使用的，例如这儿的batch=64，subdivisions=16表示训练的过程中将一次性加载64张图片进内存，然后分16次完成前向传播，意思是每次4张，前向传播的循环过程中累加loss求平均，待64张图片都完成前向传播后，再一次性后传更新参数。
subdivisions一般设置16，根据尝试，通常设置为8的倍数，batch的值可以根据显存占用情况动态调整，一次性加减subdivisions大小即可，通常情况下batch越大越好，还需注意一点，在测试的时候修改batch和subdivisions参数为1，避免发生错误。
width也可以设置为不等于height，通常情况下，width和height的值越大，对于小目标的识别效果越好，但受到了显存的限制，读者可以自行尝试不同组合。
一次为跑完一个batch，训练次数达到max_batches后停止学习。max_batches的数量为检测的目标数 * 2000 ，如果数据量比较小的时候，max_batches是因该设置大一些，要不然会发生欠拟合。
momentum动量系数，DeepLearning中最优化方法中的动量参数，这个值影响着梯度下降到最优值得速度。
实际学习率learning_rate与GPU的个数有关，例如你的学习率设置为0.001，如果你有4块GPU，那真实学习率为0.001/4。
在迭代次数小于burn_in时，其学习率的更新有一种方式，大于burn_in时，才采用下面的policy的更新方式。
policy学习率调整的策略：constant, steps, exp, poly, step, sig, RANDOM，constant等方式。
steps和scale是设置学习率的变化，比如迭代到400000次时，学习率衰减十倍，45000次迭代时，学习率又会在前一个学习率的基础上衰减十倍。

训练一次迭代的log 图1

疑问以及解决方案
如果你看到avg loss =nan 说明训练错误; 某一行的Class=-nan说明目标太大或者太小，某个尺度检测不到,属于正常
什么时候应该停止训练?	当loss不在下降或者下降极慢的情况可以停止训练，一般loss=0.7左右就可以了
在训练集上测试正确率很高，在其他测试集上测试效果很差，说明过拟合了。	提前停止训练，或者增大样本数量训练
如何提高目标检测正确率包括IOU，分类正确率	设置yolo层 random =1，增加不同的分辨率。或者增大图片本身分辨率。或者根据你自定义的数据集去重新计算anchor尺寸（darknet.exe detector calc_anchors data/obj.data -num_of_clusters 9 -width 416 -height 416 then set the same 9 anchors in each of 3 [yolo]-layers in your cfg-file）
如何增加训练样本？	样本特点尽量多样化，亮度，旋转，背景，目标位置，尺寸添加没有标注框的图片和其空的txt文件，作为negative数据
训练的图片较小，但是实际检测图片大，怎么检测小目标	1.使在用416416训练完之后，也可以在cfg文件中设置较大的width和height，增加网络对图像的分辨率，从而更可能检测出图像中的小目标，而不需要重新训练* 2. set `[route] layers = -1, 11` set ` [upsample] stride=4`
网络模型耗费资源多大？（我用过就两个）	[yolov3.cfg] [236MB COCO-91类] [4GB GPU-RAM] [yolov3.cfg] [194MB VOC-20类] [4GB GPU-RAM] [yolov3-tiny.cfg] [34MB COCO-91类] [1GB GPU-RAM] [yolov3-tiny.cfg] [26MB VOC-20类] [1GB GPU-RAM]
多GPU怎么训练	首先用一个gpu训练1000次迭代后的网络，再用多gpu训练 darknet.exe detector train data/voc.data cfg/yolov3-voc.cfg /backup/yolov3-voc_1000.weights -gpus 0,1,2,3
有哪些命令行来对神经网络进行训练和测试？	1.检测图片： build\darknet\x64\darknet.exe detector test data/coco.data cfg/yolov3.cfg yolov3.weights -thresh 0.25 xxx.jpg 2.检测视频：将test 改为 demo ; xxx.jpg 改为xxx.mp4 3.调用网络摄像头：将xxx.mp4 改为 http://192.168.0.80:8080/video?dummy=x.mjpg -i 0 4.批量检测：-dont_show -ext_output < data/train.txt > result.txt 5.手持端网络摄像头：下载mjpeg-stream 软件, xxx.jpg 改为 IP Webcam / Smart WebCam
如何评价模型好坏	build\darknet\x64\darknet.exe detector map data\defect.data cfg\yolov3.cfg backup\yolov3.weights 利用上面命令计算各权重文件，选择具有最高IoU（联合的交集）和mAP（平均精度）的权重文件

posted on 2020-10-17 11:47 strangeman 阅读(4879) 评论(0) 收藏举报

刷新页面返回顶部

strangeman