ILSVRC2014检测总结
ILSVRC 2014结束一段时间了。从下面的表格来看,基本都是RCNN的路子,但是这些牛队都做了改进。自己和人家比差的太远啊,努力。
team |
results |
Spotlights and improve |
GoogLeNet |
0.439329(6 m) 0.38(1m) |
Rcnn 1. Increase size of super-pixels by 2X 2. Add multibox* proposals |
CUHK DeepID-Net |
0.406659 |
RCNN + Bounding box rejection using def-pooling layer 1000 object-level annotation 200 object-level annotation |
Deep Insight |
0.404517 |
Original RCNN + 9conv + SPM + more iterations + Structural Edge Proposal + 7/8/9 Conv Ensemble + CLS Context |
NUS |
0.37212 |
Rcnn framework, with nin in cnn |
UvA-Euvision |
0.354213(aug) 0.32.253(prov) |
Selective search + cnn |
MSRA Visual Computing |
0.351103 |
A combination of multiple SPP-net-based models (no outside data) |
Berkeley Vision |
0.345213 |
R-CNN baseline |
读这些单位的文章,记录一下:
Googlenet,测试过,确实减少了量。
deepid用1000类的bb训练,在200类的BB做fine tuning.还类似于SPP一样,引入了一个pooling层。
NUS,用了nin,其中使用的是hcp,其思路就是用bing生成若干个regions,计算这些regions之间的iou作为weights,然后利用normalized cuts等进行聚类,减少regions的个数,然后再利用CNN进行特征提取和分类,在分类后,每一个regions得到一个c类的vector,然后对这些region的vectors通过max pooling,得到该张图片的mult labels。这个方法大大提高了像pascal的分类这些多类分类的效果,其实是借助于检测达到分类效果,速度应该慢。但是从检测上来说,效果肯定差,因为使用的regions数目少,再者本身聚类得到的regions很难保证是最好的?其中提到用到了ctx信息,今天找到他们的ctx文章,看了一下,说不麻烦吧,还挺麻烦的。基本上从原理上来讲,就是对特征扩展了维度信息,比如对分类来说,检测的结果输出是ctx信息,检测的结果可以取top 2的结果。而对检测来说,分类的结果可以作为其ctx信息,比如文中用到的bow信息。个人感觉吧,单纯就在训练svm时添加上这些信息,应该是有帮助的,文章中写的那么复杂,可能做的时候应该没那么复杂,可惜作者没公开代码。猜测在检测中,如果走rcnn的路线,通过cnn得到的分类结果,将结果作为ctx信息。
微软的SPP,这几天把windows版本的搭建起来了,速度确实比rcnn快,而且可以随意输入大小,确实很赞。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人