随笔- 265 文章- 0 评论- 52 阅读- 20万

ILSVRC2014检测总结

ILSVRC 2014结束一段时间了。从下面的表格来看，基本都是RCNN的路子，但是这些牛队都做了改进。自己和人家比差的太远啊，努力。

team	results	Spotlights and improve
GoogLeNet	0.439329(6 m) 0.38(1m)	Rcnn 1. Increase size of super-pixels by 2X 2. Add multibox* proposals
CUHK DeepID-Net	0.406659	RCNN + Bounding box rejection using def-pooling layer 1000 object-level annotation 200 object-level annotation
Deep Insight	0.404517	Original RCNN + 9conv + SPM + more iterations + Structural Edge Proposal + 7/8/9 Conv Ensemble + CLS Context
NUS	0.37212	Rcnn framework, with nin in cnn
UvA-Euvision	0.354213(aug) 0.32.253(prov)	Selective search + cnn
MSRA Visual Computing	0.351103	A combination of multiple SPP-net-based models (no outside data)
Berkeley Vision	0.345213	R-CNN baseline

读这些单位的文章，记录一下：

Googlenet，测试过，确实减少了量。

deepid用1000类的bb训练，在200类的BB做fine tuning.还类似于SPP一样，引入了一个pooling层。

NUS，用了nin，其中使用的是hcp,其思路就是用bing生成若干个regions，计算这些regions之间的iou作为weights，然后利用normalized cuts等进行聚类，减少regions的个数，然后再利用CNN进行特征提取和分类，在分类后，每一个regions得到一个c类的vector，然后对这些region的vectors通过max pooling，得到该张图片的mult labels。这个方法大大提高了像pascal的分类这些多类分类的效果，其实是借助于检测达到分类效果，速度应该慢。但是从检测上来说，效果肯定差，因为使用的regions数目少，再者本身聚类得到的regions很难保证是最好的？其中提到用到了ctx信息，今天找到他们的ctx文章，看了一下，说不麻烦吧，还挺麻烦的。基本上从原理上来讲，就是对特征扩展了维度信息，比如对分类来说，检测的结果输出是ctx信息，检测的结果可以取top 2的结果。而对检测来说，分类的结果可以作为其ctx信息,比如文中用到的bow信息。个人感觉吧，单纯就在训练svm时添加上这些信息，应该是有帮助的，文章中写的那么复杂，可能做的时候应该没那么复杂，可惜作者没公开代码。猜测在检测中，如果走rcnn的路线，通过cnn得到的分类结果，将结果作为ctx信息。

微软的SPP，这几天把windows版本的搭建起来了，速度确实比rcnn快，而且可以随意输入大小，确实很赞。