1.文字回答:按照自己的观点,总结对于语义分割的理解
语义分割是对一张图片的每一个像素点进行分类,并将每个类别(车,车道,人物,建筑,天空)用不同的颜色标注出来。它是计算机视觉中的关键任务之一,越来越多的应用场景需要从影响中推理出相关的知识和语义。语义分割可以帮助场景理解
2.文字回答:怎样理解论文中的Figure 2 ?
图2展示了如何把分类网络的backbone应用到语义分割任务中。把全连接层去了,转换成卷积层,让网络输出一个heatmap。这样做有两个好处,一是可以实现任意尺寸的输入,原vgg模型则要求固定尺寸的输入;二是输出为与输入同尺寸的图像,实现了端到端。
3.文字回答:用文字描述论文中的Figure 3
描述了网络特征图进行融合的过程。每次经过pool层进行一次下采样,尺寸减小一半,最后产生了1/32预测特征图(FCN-32s);1/32特征图上采用为1/16特征图,和原来的1/16特征图在通道上进行合并产生1/16预测特征图(FCN-16s);合并结果再二次上采样,成为1/8特征图,和原来的1/8特征图合并为1/8预测特征图(FCN-8s)。
4.文字回答:将论文Results中提到的前三个指标,用自己的理解描述出来
Pixel Accuracy(PA,像素精度):标记正确的像素点占所有像素点的比例。
Mean Pixel Accuracy(MPA 均像素精度):计算每个类内被正确分类像素数的比例,再求所有类的平均。
mean IU(MIoU 均交并比):按类别平均的交并比,计算真实值和预测值的交集和并集。
5.代码实践:在CamVid上得到测试结果,分析整个训练过程中loss和指标的变化趋势
6.本文摘抄
主要成就:FCN是第一个实现端到端,像素到像素的语义分割网络
核心思想:构建了一个全卷积网络,可以输入任意尺寸的图像,并得到同样尺寸的输出
主要方法:将当前分类网络改编成全卷积网络并进行微调,设计跳跃连接将全局信息和局部信息连接起来相互补偿
相关术语:局部信息:提取位置:浅层网络中提取局部信息;特点:物体的几何信息比较丰富,对应的感受野较小;目的:有助于分割尺寸较小的目标,有利于提高分割的精确程度
全局信息:提取位置:深层网络中提取全局信息;特点:物体的空间信息比较丰富,对应的感受野较大;目的:有助于分割尺寸较大的目标,有利于提高分割的精确程度
感受野:决定某一层输出结果中一个神经元所对应原始输入层区域大小,为感受野。stride越大,感受野越大。但过大的stride会使feature map保留的信息变少。
平移不变性:图片中的目标无论被移到图片的哪个位置,分类结果都应该是相同的。浅层CNN符合这个特征,深层CNN不符合。
Shift-and-stitch: 补零+平移原始图片得到四种版本的输入图片;再通过最大池化得到对应的四张输出特征图;最后通过四张输出图拼接成密集预测图。
上采样:以往用插值进行上采用,FCN中用反卷积进行上采样。
类平衡对模型最后结果有一定影响
算法通过混淆矩阵计算PA, MPA, IoU。
1. 将AlexNet, VGG, GoogLeNet框架都用了一遍,微调它们让他们能进行语义分割。
2. 语义分割在semantics和location之间权衡。global信息解决事什么, local信息解决在哪。因此本文用skip跳跃连接, 把deep, coarse, senmantic information和shallow, fine, appearance information连接起来。
3. 把全连接改成全卷积,不仅可以生成heatmap,也让计算量在这些块中被均摊。