论文笔记(FCN网络,语义分割):Fully Convolutional Networks for Semantic Segmentation

FCN论文笔记:Fully Convolutional Networks for Semantic Segmentation

语义分割模型结构时序:

FCN

SegNet

Dilated Convolutions

DeepLab (v1 & v2)

RefineNet

PSPNet

Large Kernel Matters

DeepLab v3

FCN模型:全卷积网络 (CVPR 2015)

参考文献:

Fully Convolutional Networks for Semantic Segmentation
Jonathan Long∗ Evan Shelhamer∗ Trevor Darrell
UC Berkeley


这里写图片描述

FCN是端到端的,pixel-to-pixel的,优点在于:像素级别的预测,并且可以有监督的预训练。

Semantic segmentation faces an inherent tension between semantics and location: global information resolves what while local information resolves where.

Convnets are built on translation invariance. 卷积神经网络是基于平移不变性的,因为conv操作只针对相对坐标。

作者指出,全连接层可以看作是对整个fm的卷积操作。(实际上这种观点在ImageNet的某篇经典文章的中就是已经指出,起初是为了应对test过程中image尺寸不一样,所以就把全连接直接改成对于训练用的patch的卷积层,这样对于patch得到的结果就是各个类别的vector,但是对于test 的图像就是各个位置上可能是某类别的概率。在图像分类问题中,直接取各个空间位置的平均)。


这里写图片描述

但是这样就带来一个问题,就是由于stride和池化,导致输出的图像的类别的heatmap更加coarse,缩放的比例就是感知域的stride。所以考虑用某种方法把分辨率升上去。这里用的是deconvolution的方法。In a sense, upsampling with factor f is convolution with a fractional input stride of 1/f . So long as f is integral, a natural way to upsample is therefore backwards convolution (sometimes called deconvolution) with an output stride of f . 在deconvolution中,不一定要用fixed的layer,比如双线性插值,而是可以用带有激活函数的deconvolution layer学习一个非线性的upsampling。作者通过whole image trainning提高了效率。

语义分割网络的结构:用ILSVRC的分类器并且把它们用pixel-wise loss和in-network upsampling改造成dense prediction,然后通过fine-tuning训练一个分割网络。另外,还加入了层之间的跳线,从而fuse 语义的coarse信息与局部的appearance信息。


这里写图片描述

其中FCN-32s是32倍率直接升采样,而16×和8×分别是对应于利用了pool4和(pool4以及pool3)的信息,这样可以更好的恢复细节。

结果:


这里写图片描述

2018年05月15日16:16:10

婚姻的许多技巧根拆弹专家的技巧重合 —— 作家, 阿兰德波顿

posted @ 2018-05-15 16:19  毛利小九郎  阅读(236)  评论(0编辑  收藏  举报