V1
CNN网络将resize后的图像分割成S x S的单元格,若目标的中心点落在某一单元格,则该单元格负责检测该目标,输出该目标的类别和边框坐标。
【Bboxes pre1】每个grid预测B个框(及对应的置信度)和C个类别的条件概率。条件概率:假设改grid存在物体的条件下,是某个类别得概率。生成98个bbox全概率:包含物体的概率(置信度)乘以假设该grid存在物体的条件下是某个类别的条件概率,得到全概率。