Going Deeper with Convolutions(Inception v1)笔记

该网络结构可以在增加网络宽度和深度的同时保持计算预算不变。结构的选择基于Hebbian原理和多尺度处理的直觉。

First of All

图像识别和对象检测方面的进步，不但来源于更强的硬件、更大的数据集和更大的模型，而且主要是因为新的思路、算法和改进之后的网路结构。
例如Girshick大神的R-CNN，不是只利用深层网路或更大的模型，而是要结合深层结构和经典计算机视觉算法。
移动和嵌入式计算使得算法（CNN）的效率越来越重要。

Inception
"We need to go deeper"(盗梦空间里的台词)

Depth

在大的数据集上，趋势是增加层数和层的size，同时使用dropout解决过拟合问题
多尺度：一种类似灵长类视觉皮层的机制（primate visual cortex），但是Inception结构有所不同（Arora的论文）
- Inception是学习得到的
- Inception会在网络中重复多次
NIN：1x1的卷积可以降低维度，限制网络的大小
R-CNN：两步检测，本文提出了类似的pipeline，但是有改进
- 多边框（multi-box）
- 更好的候选框

增加网络的深度和宽度会带来两个问题

解决思路

使用稀疏连接结构
- Arora的开创性工作：根据特征和输出聚类之间的相关性逐层进行学习，得到最优网络结构
- Hebbian原理：neurons that fire together, wire together

不利因素

解决方法

是否存在一种网络结构，可以通过计算密集矩阵充分挖掘目前的硬件性能，从而利用额外的稀疏性，甚至是在滤波器层面
- 文献：聚类
- 具有可行性（It dose not seem far-fetched）

Starting

第一作者（C.Szegedy）评估一个复杂的网络拓扑结构构建算法的假设输出，该网络试图逼近Arora提出的稀疏结构
- 尽管有很大的推测性，但仅仅两轮迭代之后，就看到了不错的结果（modest gains），最终建立起了Inception结构

注意

The Main Idea

Inception

Figure2.a（可以进一步参考Arora的论文和NIN）
- 用1x1的卷积对局部区域的相关单元（理解为像素？？？）进行聚类
- 用3x3和5x5的卷积对空间上分散的相关单元进行聚类
- 池化是CNN中必要的结构
Figure2.b
- 直接使用a结构，越到后面堆积的层越多，参数越多，非常低效
- 使用维度下降和投影
- 先卷积后降维会破坏特征图的稀疏性，因为降维是一个压缩过程，是一种密集性的信息表达方式，更难以去建模（先池化后降维？？？）
前几层为传统的卷积操作
- 现有架构计算效率的原因
优势
- 增加计算单元不会导致计算复杂度爆表
- 符合视觉信息的多尺度处理方式
实践
- 建立精度稍低，但是计算成本更低的版本

说不清那个trick更有用，太乱

posted @ 2018-01-29 17:00 actonton 阅读(610) 评论(0) 收藏举报

刷新页面返回顶部

whenyd