对于图像的目标检测任务:通常分为目标的类别检测和目标的位置检测
目标的类别检测使用的指标:准确率, 预测的结果是类别值,即cat
目标的位置检测使用的指标:欧式距离,预测的结果是(x, y, w, h) x和y表示的是左上角的位置,w和h表示的是矩形框的宽和高
目标检测是分类和回归都进行的一种算法
对于位置的回归而言,使用全连接层获得结果的4个输出,使用欧式距离计算损失值
对图像物体进行卷积,对卷积后的特征图分开进行计算,一条通路计算回归,一条通路计算分类
目标检测的实际操作步骤:
第一步:下载一个已经训练好的目标检测模型参数, 可以是AlexNet, VGG,GoogLeNet
第二步:连接一个新的全连接层,用于进行分类和回归任务
第三步:进行实际参数的训练,对于回归任务,使用L2损失值,对于分类任务,使用softmax计算损失值,将求得的梯度,使用梯度下降SGD,来更新w和b参数
第四步:对训练好的模型使用测试数据进行测试
滑动窗口:使用221*221*3的窗口在图像上进行滑动,对每个窗口进行预测,判断哪个窗口存在物体的概率最大, 即一张图片的每个窗口都输出一个值
各个模型的分类结果对比, 残差网络,将当前层的输入与当前层的输出进行连接,作为下一层的输入,因为如果这一层卷积没有用的话,那么在训练的过程中,逐渐使得这层的参数为0,这样就不会导致训练结果变差的情况出现,因此可以加深网络的深度