吴恩达《深度学习》第四门课（3）目标检测（Object detection）

3.1目标定位

（1）案例1：在构建自动驾驶时，需要定位出照片中的行人、汽车、摩托车和背景，即四个类别。可以设置这样的输出，首先第一个元素p_c=1表示有要定位的物体，那么用另外四个输出元素表示定位框的中心坐标和宽高，再用3个输出元素one-hot表示是三个类别中的哪一类。当第一个元素p_c=0时表示是背景，然后就不需要考虑其他输出了，如下图所示（需要注意的是是根据图片的标签y来决定使用几个元素的）：

（2）损失函数：上图中左下角是使用了平方误差损失函数这是为了方便解释方便而使用的。实际使用中p_c使用逻辑回归，c₁,c₂,c₃是用softmax激活然后然后用对数损失函数，位置信息是使用平方误差损失函数，然后将这些损失函数相加起来得到最终的代价函数。当标签y=0时，只考虑p_c即可。

3.2特征点检测

（1）特征点检测就是第一个单元输出1，表示有这个对象（如人脸），然后如果在人脸上定义了64个特征点（如下图所示），每个特征点用（x,y）表示，那么网络将会有1+2*68=129个单元输出。需要注意的一点是在标注样本时，所有标签在所有图片中务必保持一致，比如说，第5个特征点表示左眼的外眼角，那么所有图片的第五个特征点都应该是这个。

3.3目标检测

（1）案例是检测图片中的汽车，首先是有裁剪合适的照片（裁剪合适是指照片中如果有汽车那么汽车将占满整张图），进行训练一个可以分类汽车的网络，即输出是否有汽车。如下图所示：

（2）滑动窗口目标检测是用一个滑动窗口从图片的最左上角从做到右（设定一定步长）从上到下去滑动，分别将窗口内的图片裁剪下来送入到之间训练好的网络中，判断有无汽车，然后改变窗口大小，以及步长等，重复上面步骤，如下图所示：

（3）滑动窗口的问题就是计算量非常的大，因为要保证精确度化不能用太大的步长，这样滑动窗口很多，而且很多地方是属于重复计算了。

3.4卷积的滑动窗口实现

（1）将全连接层转换为卷积层，如下图所示5*5*16与400个单元进行全连接可以转换为用400个5*5*16的卷积核来卷积5*5*16，这样每一个卷积核其实就相当与都是全连接的结果，唯一的区别就是之前全连接输出是400个单元，现在输出是1*1*400，维度不同，下一层全连接转卷积同样操作，最后一层原来是输出4个单元，现在变成了1*1*4，维度不同，仅此而已。

（2）上一节中一个一个滑动框输入网络中，有许多计算是重叠的，即多次计算，所以可以将原图直接输入到网络中，这样避免了重复计算。之所以将前面的全连接层变成卷积层，是因为只有都是卷积层的时候才可以输入任意尺寸的图片，更具体的说是参数不随图片尺寸变化，而全连接层参数w时固定的意味着图片输入尺寸要固定。

（3）该方法还存在的一个问题就是边界框位置不够准确。

3.5Bounding Box预测（YOLO算法）

（1）将一张图3*3共9个单元（在论文中是分成19*19，论文默认前提是一个单元里只有一个对象），每个单元都有上面提到的1+4+3=8个输出（还是用上面无人驾驶的例子，3个类别加一个背景）所以整个网络输出为3*3*8。换言之就是输入一张图片，然后网络最终输出的维度为3*3*8，3*3是指有图片分成这么多格子，然后每个格子需要用到8个参数。如下图所示：