Very Deep Convolutional Networks for Large-Scale Image Recognition
Very Deep Convolutional Networks for Large-Scale Image Recognition
In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main contribution is a thorough evaluation of networks of increasing depth, which shows that a significant improvement on the prior-art configurations can be achieved by pushing the depth to 16–19 weight layers. These findings were the basis of our ImageNet Challenge 2014 submission, where our team secured the first and the second places in the localisation and classification tracks respectively.
看一下摘要,就差不多知道作者要讲解的是什么了,depth!!!!!!
Google的模型也是depth啊,所以shuicheng yan的slides里说他们的模型not deep enough!
文中介绍到,其模型有19层,16卷积外加3个fc,这个比起来google也还好,但是确实是deeper better啊。另外,在香港中文的naiyan wang也说了,deeper better啊。所以,明年的imagenet估计拼deeper吗?
训练过程,先训练比较少的层,然后多层的CNN在浅层基础上训练,即,现有的层参数作为初始化,而新加的层的参数随机初始化。在初始化过程中,作者也提到,是个很难的问题。另外,在卷积层,用的是3X3的,深层的也有1X1的卷积,特别提到了network in network,即每个节点都要再作一次非线性变换。
单机4GPU,训练模型,分类跑了第二,定位跑了第一,也是了得的啊。
值得一提,定位中,用过per class regression和single class regression(原文不知道怎么翻译),当然pcr效果更好,第二种类型就是对所有1000类只训练一个regressor,没有类别的信息在其中,出来的信息是4-D维度的。第一种方式就是regressor出来的是1000×4-D维度的。感觉和overfeat很相似的,只是他就用了一个scale.同样,他们还用了overfeat中的合并方法,唉,这个我当时实现了,但是效果不好,看来还是没有理解到位,回头再看看。
同时,文中提到,对所有层做fine tuning比某几层好。
文中在test阶段,将所有fc层转换为conv层,这样有一个很大的好处就是图像可以是不同大小的了。具体转换办法可以见:http://nbviewer.ipython.org/github/bvlc/caffe/blob/master/examples/net_surgery.ipynb
整体感觉VGG还是比较接地气的,只是不放出来代码,有点遗憾。
整体吧,文章还没有理解完整,未完待续……
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人