读书笔记 Learning Deep Features for Discriminative Localization

CMP是在原始的框架上加入一个卷积层,GAP和softmax层,生成的网络。

1. Classification:分类效果上可能会稍有下降,可以通过增加卷积层,就可以使分类准确度和原来差不多了

2. Localization:

  • To generate a bounding box from the CAMs, we use a simple thresholding technique to segment the heatmap. We first segment the regions of which the value is above 20% of the max value of the CAM. Further, we observe that GoogLeNet-GAP significantly outperforms GoogLeNet on localization, despite this being reversed for classification.
  • 在弱监督和全监督的实验上,弱监督的GoogLeNet-GAP with heuristic(a top-5 error rate of 37.1%)效果非常接近全监督的AlexNet (34.2%)。给我们的启发是继续比较weakly-supervised GoogLeNet-GAP vs fully-supervised GoogLeNet。

3. Deep Features for Generic Localization

  • 为了说明CNN深层网络有对generic features效果明显。we compare the performance of features from our best network, GoogLeNet-GAP, with the fc7 features from AlexNet, and ave pool from GoogLeNet. 就是说特征都是使用前面网络的输出结果,然后在其他训练数据集上训练linear SVM。Overall, we find that GoogLeNet-GAP features are competitive with the state-of-the-art as generic visual features. 就是说,从第三行可以看出-GAP的特征提取效果没有比前两行差也没有好过前两行。
  • 继续看第三行的特征 in this scenario 是不是也有informative的效果。We observe that the most discriminative regions tend to be high-lighted across all datasets. Overall, our approach is effective for generating localizable deep features for generic tasks.就是说,虽然没有用这些数据集训练,但是非常明显的突出特征区域能够被高亮找出来。综上,我们的方法对于深度特征的定位是有效的。实验结果如下图。

4.1. we apply our generic localizable deep features to identifying 200 bird species in the CUB-200-2011 [27] dataset. 就是说,我们用上面的特征来识别这个数据集中200只鸟的品种。这一数据集自带bounding box annotations的标记,可以帮助我们评估准确率。没有使用bounding box的时候,GoogLeNet-GAP正确率可以到63.0%。有BB的时候,正确率可以到70.5%。Now, given the localization ability of our network, we can use a similar approach as Sec. 3.2 (i.e., thresholding) to first identify bird bounding boxes in both the train and test sets. We then use GoogLeNet-GAP to extract features again from the crops inside the bounding box, for training and testing. 就是说,用3.2中选阈值的方法确定定位的BB,然后咧,再在这个BB内进行训练,这样训练的效果可以到67.8%。说明生成的BB能够包括重要的位置信息。

 

4.2. Pattern Discovery:通过四个实验探究CAM能不能定位更高层次的概念。结论是*-GAP可以定位其中重要的区域,即使是更高层次的概念。

Discovering informative objects in the scenes: We train a one-vs-all linear SVM for each scene category and compute the CAMs using the weights of the linear SVM. 就是说,训练

 

Concept localization in weakly labeled images:一幅图片是什么主题,我们可以从训练的concept detector得知,受此启发,我们可以训练得到一个短语的concept detector。为了训练一个短语的概念检测器,正集合由其文本标题中包含短语的图像组成,负集合由随机选择的图像组成,在其文本标题中没有任何相关的单词。

 

Weakly supervised text detector:训练结果是能够精确找到一张图中的有文字的块,不需要bounding box annotations。

 

Interpreting visual question answering:We use our approach and localizable deep feature in the baseline proposed in [36] for visual question answering. 就是说我们的方法和用于定位的深层的特征用于基线视觉问题的回答,精度达55.89%。我们的方法高亮了与预测答案相关的图片区域。

 

5. Visualizing Class-Specific Units:CNN不同层的卷积单元可以看成视觉概念检测子,网络层次越深的单元其区分能力越强。由于全连接层不能给出识别不同category的不同单元的重要性度量。Here, using GAP and the ranked softmax weight, we can directly visualize the units that are most discriminative for a given class. 就是说加一个GAP,对softmax权重排序,找出每个类别贡献最大的卷积单元图,并找出其中激活值最大的区域,最后对应到原图部分。结论是From the figure,we can identify the parts of the object that are most discriminative for classification and exactly which units detect these parts.就是说,对于识别某类别来说,特定的卷积单元识别其中相对固定的部分。我们能确定的得到那个卷积单元对那个类的识别特别有用,然后再将这几个单元组合起来识别一个包含这几个类的一个大类。比如the units detecting sofa, table and fireplace are important to the living room.

6. 总结: 文章说使用提出的CAM,可以训练用于分类的CNN网络,将它用来定位要识别物体的位置。CAM类激活图使我们可以在任何给定的图像上可视化预测类的分数。此外,实验部分将CAM定位技术推广到其他视觉识别任务。即这一技术产生通用的本地化深层特征,可以帮助其他研究人员了解CNN为其任务使用的区分类别的基础。

 

posted on 2017-10-19 11:51  zero101  阅读(2349)  评论(0编辑  收藏  举报

导航