Note_Semantic Segmentation of Aerial Images With Shuffling Convolutional Neural Networks

基本信息

IEEE geoscience and remote sensing letters 201802

Q2

中科院地理信息处理实验室
Semantic Segmentation of Aerial Images With Shuffling Convolutional Neural Networks

笔记

作者认为,文章的主要工作在下面三个方面:

  1. 在航空图像分割领域中,提出一个shuffling CNNs。
  2. 并且提供一个naive 的版本和一个deeper的版本。
  3. 提出一种field-of-view(FoV)enhancement的方法。

在ISPRS Vaihingen 和 Postsdam 两个数据集上做了实验。

详细分析如下:

关于第一点,这个shuffling CNNs实际上就是从 CVPR 2016 (Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network)中搬运的一个网络,本文的重点图示也是仿其所画。

主要原理就是用这种shuffling操作,代替上采样的过程。本文作者在原来的基础上做了一点改动后,增加了参数S,用于调整最后输出的特征图的大小。这个参数,是超参,最后是结果是0.5最好。所以,实际上完成了$$ (H,W) -> (Hs,Ws) $$的映射。一定程度上,这个和第三点FoV的想法是一致的,FoV其实就是膨胀预测的意思,图像的边缘的通常没有完整的上下文信息,所以,用较大的原始图像预测比小一点范围目标图像就会取得更好的精度。

关于第二点,文中结合,所有的模型都是基于DeepLab model。主要使用Rectified deeplab Model(RDM) 作为 baseline,还有一个baseline是在这个基础上加入atrous spatial pyramid pooling(ASPP),也就是RDM+ASPP。

Naive shuffling CNN 仅仅是在RDM的最后的卷积层和softmax之间加了一个shuffling 层。于是,也有一个naive SCNN-ASPP模型,指的一提的是加入了一个ASPP,居然增加了17.59M的参数。

在 naive-SCNN的基础上,增加15个卷积层,BN层,还有ReLU层,组成deeper SCNN。

关于第三点,作者使用是step=368,patch=448和step=800,patch=896。

实验

Vaihingen 数据有五个通道DSMs,near-infrared,red,green和nDSMs。

Potsdam 数据有六个通道near-infrared, red,green, blue, DSMs和 nDSMs 。

RDM 模型最后实际只预测输入分辨率为1/8,因为s=1/2,所以经过shuffling操作,得到分辨率为1/2。然后,用双线性插值对这个特征图进行缩放,得到原图大小。

框架使用的是MXNET,sgd+momentum训练。

损失是普通的互熵损失。

训练的时候,采用224*224,样本是随机裁剪的,然后用于训练。

总结

全文的模型主要借鉴了shuffling操作,在deeplab的基础上加入了ASPP的操作。

最后的EDeeper-SCNN,作者是将不同checkpoints的模型获得的特征进行ensemble,这还是第一次见到这种操作~

作者认为这个模型在小目标上更好,主要是实验结果显示小目标,比如车,更好。

posted @ 2018-05-05 20:14  叶罅  阅读(618)  评论(0编辑  收藏  举报