yolov1~v5的介绍

0. 计算机视觉

参考:https://zhuanlan.zhihu.com/p/94986199

https://zhuanlan.zhihu.com/p/32525231

https://www.bilibili.com/video/BV1yi4y1g7ro?from=search&seid=15480272248284580243

计算机视觉,图像分类是计算机视觉最基本的任务之一,但是在图像分类的基础上,还有更复杂和有意思的任务,如目标检测,图像分割等,见下图所示。其中目标检测是一件比较实际的且具有挑战性的计算机视觉任务,其可以看成图像分类与定位的结合,给定一张图片,目标检测系统要能够识别出图片的目标并给出其位置。

image-20210904213046347

比较流行的目标检测算法可以分为两类,一类是基于Region Proposal的R-CNN系算法(R-CNN,Fast R-CNN, Faster R-CNN),它们是two-stage的,需要先使用启发式方法(selective search)或者CNN网络(RPN)产生Region Proposal,然后再在Region Proposal上做分类与回归。而另一类是Yolo和SSD,这类是one-stage算法,其仅仅使用一个CNN网络直接预测不同目标的类别与位置。第一类方法是准确度高一些,但是速度慢,但是第二类算法是速度快,但是准确性要低一些。

1.yolov1

1.1 原理以及参数的计算方法

1.1.1 原理:

yolo是将图像分割成不重叠的几个部分,每一部分称为一个grid cell。对于每一个grid,预测其中的某一点作为物体的中心(x,y),以此中心形成一个框,所以还必须预测此框的宽(w)和高(h),还必须预测的框框住物体的可能性confidence(置信度)。

故一个框包括五个属性,分别为x,y,w,h,confidence。而每一个grid一般包含几个这样的框。这样的框称为bounding box。

Yolo采用卷积网络来提取特征,然后使用全连接层来得到预测值。

1.1.2 参数的计算方法:

confidence = P*IOU,表示该bounding box中目标属于各个类别的可能性大小以及边界框匹配目标的好坏

P 是一个grid有物体的概率,在有物体的时候为1,没有物体的时候为0.(置信度在某些情况,似乎不是这么计算的)

IOU:这个IOU的全称是intersection over union,也就是交并比,它反应了两个框的相似度。IOU预测的是bounding box和真实的物体位置的交并比,如下图所示:

image-20210904213129875

x,y,w,h的计算方法:

如下图,中间框的左上角坐标为(a,b),物体中心坐标(x0,y0),grid的大小为(m,m),红色框的大小为(j,k),整个图片的大小为(p,q)。

则x=(x0-a)/m, y=(y0-b)/m, w=j/p,h=k/q,如此归一化的目的是为了计算的简单。具体如下图右侧:

image-20210904213152038

通过(x,y)就可以还原出(x0,y0),这是因为此中心点在哪个框中是已知的。通过(w,h)就可以还原出(j,k),这是因为图片的大小是已知的。

1.1.3 一些其他参数

1.设每一个单元格要给出预测出C类,每个单元格有B个bounding box,而每个bounding box都有五个属性(x,y,w,h,confidence),则每个单元格需要预测(B5+C)个值。如果图片被分为SS个网格,那么最终需要预测(B*5+C)SS个值。

测试的时候,每一个目标的概率confidence*P©,confidence代表框住物体的概率、P©代表物体为C类的概率

2.ground truth是人为标注的框住物体的框。

3.每个框有多个bounding box,只取IOU最大的。

\4. 缺点:大家可能会想如果一个单元格内存在多个目标怎么办,其实这时候Yolo算法就只能选择其中一个来训练,这也是Yolo算法的缺点之一。

1.2 损失函数:

image-20210904213228944

bounding box损失代表中心点(x,y)和框的(w,h)与实际的差距,confidence损失代表预测的框与实际的框的差距,

classes损失代表预测的分类与实际分类的差距。

让w加上平方根再相减的原因如下图:

image-20210904213801619

在图中我们可以看到,同样的偏移,对小图的影响会比较大,对大图的影响比较小。而“给w加上平方根再相减”才会使得:大图需要更大的偏移才能达到小图较小偏移的效果。

2.yolov2

参考:https://zhuanlan.zhihu.com/p/35325884

2.1 yolov2的七种优化

1.Batch Normalization:通过计算机像素点的平均值和方差,将像素点的值归一化。

2.High Resolution Classifier:我不懂,好像是用高分辨率的图像进行训练

3.Convolutional With Anchor Boxes:YOLOv2借鉴了Faster R-CNN中RPN网络的先验框(anchor boxes,prior boxes,SSD也采用了先验框)策略。RPN对CNN特征提取器得到的特征图(feature map)进行卷积来预测每个位置的边界框以及置信度(是否含有物体),并且各个位置设置不同尺度和比例的先验框,所以RPN预测的是边界框相对于先验框的offsets值(其实是transform值,详细见Faster R_CNN论文),采用先验框使得模型更容易学习。所以YOLOv2移除了YOLOv1中的全连接层而采用了卷积和anchor boxes来预测边界框。为了使检测所用的特征图分辨率更高,移除其中的一个pool层。

4.Dimension Clusters:在Faster R-CNN和SSD中,先验框的维度(长和宽)都是手动设定的,YOLOv2采用k-means聚类方法对训练集中的边界框做了聚类分析。因为设置先验框的主要目的是为了使得预测框与ground truth的IOU更好,所以聚类分析时选用box与聚类中心box之间的IOU值作为距离指标:

image-20210904213849401

5.Multi-Scale Training:模型只有卷积层和池化层,所以模型可以输入的图像的尺寸可以不同。所以输入不同尺寸的图片进行训练也是可行的。这样同一个模型其实就可以适应多种大小的图片了。

6.Direct location prediction:我不懂,可能是使得anchor在一个cell中,(需要去看 Faster RCNN,看anchor是什么)

7.Fine-Grained Features:像残差网络一样,将底层的信息和高层的信息进行融合

yolov2的骨干网络:Darknet-19

3.yolov3

问题:Faster R-CNN中RPN网络的先验框(anchor boxes,prior boxes)是什么??

posted @ 2022-07-26 19:51  好人~  阅读(699)  评论(0编辑  收藏  举报