YOLOv1

论文阅读(8)YOLOv1:You Only Look Once: Unified, Real-Time Object Detection

预测阶段

特征提取

图像卷积(卷积神经网路)之后生成7x7x30张量

将输入图片划分成7x7的网格(grad cell),每一个网格预测2个定位框(x,y,h,w,c)

c(confidence):置信度(前景or背景)

2个框共10(2*5)个参数,PASCAL VOC 共20个类别,20个类别条件概率,因此一个grad cell生成30个参数

所提输出是7x7x30(5+5+20)

后处理

非极大值抑制NMS,把输出的7x7x30张量变成最终的预测结果

  1. 将20个类别的条件概率和置信度相乘得到预测是某个类别的概率

    每个grad cell两个预测框,都要进行如此操作,得出20x98的概率矩阵

  2. 对每一个类别,设置阈值低于某个值,直接将其概率置为0

  3. 对每一个类别,对所有预测概率按照降序排序,计算此后每一个框与当前框的交并比(IoU),若大于某一个阈值,则认为后面的框和当前框预测的是同一个物体,且后面的框概率较小,将后面框的概率置为0

  4. 对每一个类别,输出其剩下的预测框及概率即可

训练阶段

损失函数:每一项都是平方和误差,YOLOv1将目标检测问题当作回归问题

image-20230302074901860

posted @ 2023-03-19 20:59  dctwan  阅读(20)  评论(0编辑  收藏  举报