YOLOv1

论文阅读（8）YOLOv1：You Only Look Once: Unified, Real-Time Object Detection

预测阶段

图像卷积（卷积神经网路）之后生成7x7x30张量

将输入图片划分成7x7的网格（grad cell），每一个网格预测2个定位框（x,y,h,w,c）

c(confidence):置信度（前景or背景）

2个框共10（2*5）个参数，PASCAL VOC 共20个类别，20个类别条件概率，因此一个grad cell生成30个参数

所提输出是7x7x30（5+5+20）

非极大值抑制NMS，把输出的7x7x30张量变成最终的预测结果

将20个类别的条件概率和置信度相乘得到预测是某个类别的概率

每个grad cell两个预测框，都要进行如此操作，得出20x98的概率矩阵
对每一个类别，设置阈值低于某个值，直接将其概率置为0
对每一个类别，对所有预测概率按照降序排序，计算此后每一个框与当前框的交并比（IoU），若大于某一个阈值，则认为后面的框和当前框预测的是同一个物体，且后面的框概率较小，将后面框的概率置为0
对每一个类别，输出其剩下的预测框及概率即可

损失函数：每一项都是平方和误差，YOLOv1将目标检测问题当作回归问题

posted @ 2023-03-19 20:59 dctwan 阅读(20) 评论(0) 编辑收藏举报

刷新页面返回顶部