语义分割之FCN

1.文字回答:按照自己的观点,总结对于语义分割的理解

语义分割是对一张图片的每一个像素点进行分类,并将每个类别(车,车道,人物,建筑,天空)用不同的颜色标注出来。它是计算机视觉中的关键任务之一,越来越多的应用场景需要从影响中推理出相关的知识和语义。语义分割可以帮助场景理解

2.文字回答:怎样理解论文中的Figure 2 ?

 

 

 图2展示了如何把分类网络的backbone应用到语义分割任务中。把全连接层去了,转换成卷积层,让网络输出一个heatmap。这样做有两个好处,一是可以实现任意尺寸的输入,原vgg模型则要求固定尺寸的输入;二是输出为与输入同尺寸的图像,实现了端到端。

3.文字回答:用文字描述论文中的Figure 3

 

 

 描述了网络特征图进行融合的过程。每次经过pool层进行一次下采样,尺寸减小一半,最后产生了1/32预测特征图(FCN-32s);1/32特征图上采用为1/16特征图,和原来的1/16特征图在通道上进行合并产生1/16预测特征图(FCN-16s);合并结果再二次上采样,成为1/8特征图,和原来的1/8特征图合并为1/8预测特征图(FCN-8s)。

4.文字回答:将论文Results中提到的前三个指标,用自己的理解描述出来

Pixel Accuracy(PA,像素精度):标记正确的像素点占所有像素点的比例。

Mean Pixel Accuracy(MPA 均像素精度):计算每个类内被正确分类像素数的比例,再求所有类的平均。

mean IU(MIoU 均交并比):按类别平均的交并比,计算真实值和预测值的交集和并集。

5.代码实践:在CamVid上得到测试结果,分析整个训练过程中loss和指标的变化趋势

6.本文摘抄

主要成就:FCN是第一个实现端到端,像素到像素的语义分割网络

核心思想:构建了一个全卷积网络,可以输入任意尺寸的图像,并得到同样尺寸的输出

主要方法:将当前分类网络改编成全卷积网络并进行微调,设计跳跃连接将全局信息和局部信息连接起来相互补偿

相关术语:局部信息:提取位置:浅层网络中提取局部信息;特点:物体的几何信息比较丰富,对应的感受野较小;目的:有助于分割尺寸较小的目标,有利于提高分割的精确程度

     全局信息:提取位置:深层网络中提取全局信息;特点:物体的空间信息比较丰富,对应的感受野较大;目的:有助于分割尺寸较大的目标,有利于提高分割的精确程度

      感受野:决定某一层输出结果中一个神经元所对应原始输入层区域大小,为感受野。stride越大,感受野越大。但过大的stride会使feature map保留的信息变少。

      平移不变性:图片中的目标无论被移到图片的哪个位置,分类结果都应该是相同的。浅层CNN符合这个特征,深层CNN不符合。

      Shift-and-stitch: 补零+平移原始图片得到四种版本的输入图片;再通过最大池化得到对应的四张输出特征图;最后通过四张输出图拼接成密集预测图。   

                                                    

 

                  上采样:以往用插值进行上采用,FCN中用反卷积进行上采样。

    类平衡对模型最后结果有一定影响

    算法通过混淆矩阵计算PA, MPA, IoU。

1. 将AlexNet, VGG, GoogLeNet框架都用了一遍,微调它们让他们能进行语义分割。

2. 语义分割在semantics和location之间权衡。global信息解决事什么, local信息解决在哪。因此本文用skip跳跃连接, 把deep, coarse, senmantic information和shallow, fine, appearance information连接起来。

3. 把全连接改成全卷积,不仅可以生成heatmap,也让计算量在这些块中被均摊。

 

posted @ 2020-10-11 20:10  sariel_sakura  阅读(457)  评论(0编辑  收藏  举报