语义分割入门(一)
本文参照:FCN网络结构详解(语义分割)_哔哩哔哩_bilibili
以及:Fully Convolutional Networks for Semantic Segmentation
转置卷积(Transposed Convolution、fractionally-strrdcd、dcconvolution)
转置卷积运算步骤(设 步长 stride=1、填充 padding=0,k卷积核尺寸)
在输入特征图元素间填充s-1行、列0 |
在输入特征图四周填充k-p-1行、列0 |
将卷积核参数上下、左右翻转 |
做正常卷积运算(填充0,步距1) |
语义分割评价指标:
Pixel Accuracy
mean Accuracy
MIOU(Mean Intersection over Union):均交并比
:类别i被预测成类别j的像素个数
:目标类别个数(包含背景)
:目标类别i的总像素个数(真实标签)
Fully Convolutional Networks for Semantic Segmentation
figure 1
figure 2
FCN-32S:
将预测结果上采样32倍,还原原图大小
figure 3
VGG16 Backbone:指代figure 2 中的卷积层和池化层,最后输出7x7x512
FC6:卷积层 padding=3(论文中padding=100),不会改变特征图高和宽
卷积核 7x7 步长:s=1
FC7:卷积层:padding=
卷积核 1x1 步长:s=1
conv2d:高和宽不会变,卷积核个数与分类类别有关
channel=num.classes,表示输出的通道数与分类数量一致
转置卷积:上采样32倍,会恢复到原大小,
FCN-16S:
figure 4(详见figure 1)
将预测结果上采样16倍,还原原图大小
maxpool3(下采样率8) maxpool4(下采样率16)
FCN-8S:
将预测结果上采样8倍,还原原图大小
figure 5
交叉熵损失计算(Cross Entropy Loss):
softmax+log+nll_loss
softmax:input网络的输出预测图像
nll_loss:负对数似然损失函数
例:原数据输入预测图像(预测图像两层,对应要分割的两种类别)
[[[0.12,0.36],[0.22,0.66]],
[[0.13,0.34],[0.52,-0.96]]]
图像标签(0表示背景,1表示行人,标签的shape为(1,2,2))
[[1,0],[0,1]]