YOLOv1
论文阅读(8)YOLOv1:You Only Look Once: Unified, Real-Time Object Detection
预测阶段
特征提取
图像卷积(卷积神经网路)之后生成7x7x30张量
将输入图片划分成7x7的网格(grad cell),每一个网格预测2个定位框(x,y,h,w,c)
c(confidence):置信度(前景or背景)
2个框共10(2*5)个参数,PASCAL VOC 共20个类别,20个类别条件概率,因此一个grad cell生成30个参数
所提输出是7x7x30(5+5+20)
后处理
非极大值抑制NMS,把输出的7x7x30张量变成最终的预测结果
-
将20个类别的条件概率和置信度相乘得到预测是某个类别的概率
每个grad cell两个预测框,都要进行如此操作,得出20x98的概率矩阵
-
对每一个类别,设置阈值低于某个值,直接将其概率置为0
-
对每一个类别,对所有预测概率按照降序排序,计算此后每一个框与当前框的交并比(IoU),若大于某一个阈值,则认为后面的框和当前框预测的是同一个物体,且后面的框概率较小,将后面框的概率置为0
-
对每一个类别,输出其剩下的预测框及概率即可
训练阶段
损失函数:每一项都是平方和误差,YOLOv1将目标检测问题当作回归问题