CascadeCNN人脸检测结构

模型的结构大致由图可以完整展现，三个分类是否人脸的12、24、48net，再加上三个用于修正预测框的分类网络；

这三个分类是否人脸的网络，结构逐渐变复杂，

由上图可以看出，前2阶的网络都非常简单，只有第3阶才比较复杂。这不是重点，重点是我们要从上图中学习多尺度特征组合。

以第2阶段的24-net为例，首先把上一阶段剩下的窗口resize为24*24大小，然后送入网络，得到全连接层的特征。同时，将之前12-net的全连接层特征取出与之拼接在一起。最后对组合后的特征进行softmax分类。

这三个网络用于矫正人脸检测框的边界，往往得分最高的边界框并非最佳结果，经过校准后其能更好的定位人脸，其矫正原理其实很简单，

就是对原图做45次变换，然后每个变换后的边界框都有一个得分，对于得分高于某个设定的阈值时，将其累加进原边界，最后结果取平均，就是最佳边界框。

级联的好处：

1.初始网络不用设计很复杂，减小计算量，可以设置较宽松的阈值，保证高召回率的同时排除大量非人脸窗口；

2.第三个网络虽复杂，为了保证足够的性能，但是只需要处理之前网络得到少量窗口，效率提升；

3.采用了多个弱分类器结合达到好效果。

posted @ 2019-06-09 16:18 you-wh 阅读(1609) 评论(0) 编辑收藏举报

刷新页面返回顶部

YouWeiH