语义分割入门(一)

本文参照:FCN网络结构详解(语义分割)_哔哩哔哩_bilibili

以及:Fully Convolutional Networks for Semantic Segmentation

转置卷积(Transposed Convolution、fractionally-strrdcd、dcconvolution)

转置卷积运算步骤(设 步长 stride=1、填充 padding=0,k卷积核尺寸)

在输入特征图元素间填充s-1行、列0
在输入特征图四周填充k-p-1行、列0
将卷积核参数上下、左右翻转
做正常卷积运算(填充0,步距1)

 

语义分割评价指标:

Pixel Accuracy

i n i i i t i

mean Accuracy

1 n c , s i n i i t i

MIOU(Mean Intersection over Union):均交并比

1 n cl s · i n i i t i + j n j i - π i i

n i j :类别i被预测成类别j的像素个数

n c ls :目标类别个数(包含背景)

t i = j n i j :目标类别i的总像素个数(真实标签)

 

Fully Convolutional Networks for Semantic Segmentation

figure 1

figure 2

FCN-32S:

将预测结果上采样32倍,还原原图大小

figure 3

 

 VGG16 Backbone:指代figure 2 中的卷积层和池化层,最后输出7x7x512

FC6:卷积层 padding=3(论文中padding=100),不会改变特征图高和宽 

     卷积核 7x7  步长:s=1

FC7:卷积层:padding=   

   卷积核 1x1  步长:s=1

conv2d:高和宽不会变,卷积核个数与分类类别有关

    channel=num.classes,表示输出的通道数与分类数量一致

转置卷积:上采样32倍,会恢复到原大小,

FCN-16S:

figure 4(详见figure 1)

将预测结果上采样16倍,还原原图大小

maxpool3(下采样率8)  maxpool4(下采样率16)

FCN-8S:

将预测结果上采样8倍,还原原图大小

 figure 5

 

交叉熵损失计算(Cross Entropy Loss):

softmax+log+nll_loss

softmax:input网络的输出预测图像

nll_loss:负对数似然损失函数

nll_loss = - 1 N i = 1 N y i l ( log_softmax )

例:原数据输入预测图像(预测图像两层,对应要分割的两种类别)

[[[0.12,0.36],[0.22,0.66]],

[[0.13,0.34],[0.52,-0.96]]]

图像标签(0表示背景,1表示行人,标签的shape为(1,2,2))

[[1,0],[0,1]]

posted on 2022-11-12 16:44  妙笔千山  阅读(87)  评论(0编辑  收藏  举报