CoMFormer: Continual Learning in Semantic and Panoptic Segmentation论文阅读笔记

摘要

文章的贡献是借助MaskFormer设计了CoMFormer，从而完成对全景分割的连续学习，提出了基于mask的伪标签以对抗遗忘。

方法

截屏2023-02-06 12.28.18

基于MaskFormer，作者将分割视为对mask的分类。输出的形式等都与MaskFormer相同，模型结构也与MaskFormer基本一致。对于每一个step的模型，由backbone、transformer decoder以及pixel decoder构成。作者特别指出，在得到mask预测结果时使用 softmax比sigmoid效果更好，使用sigmoid可能会导致单个像素被分到不同的区域，如下图所示：

截屏2023-02-06 12.41.00

为了实现连续学习，作者还加了许多操作：

Adaptive Distillation Loss

这里针对的是输出类别概率进行蒸馏：

截屏2023-02-06 14.34.59

对于每个segment的概率，用KL散度衡量新模型和旧模型给出的概率分布的差异。\(K^{t-1}+1\)指的是要额外加上no object这个类别的概率。特别地，将当前step学习的类以及no object类的概率加起来作为新模型预测的no object类别的概率（unbiased probability distribution）：

截屏2023-02-06 15.19.00

然而，作者指出较大的no object概率会导致降低其它类别的重要性。因此，作者提出了adaptive distillation loss：

截屏2023-02-06 15.33.10

其中\(w_i=(1-p_i^o(\empty))^2\)。

Mask-based Pseudo-labeling Strategy

一种简单的伪标签策略是，对于旧模型的N个输出，将预测类别不是no object的作为伪标签。然而这些segment很有可能与gt重叠，或者mask包含噪声且置信度低。为此，作者提出了mask-based pseudo-labeling，同时考虑mask以及class的概率以避免噪声。对于第i个输出，其置信度为\(q_i=p_i^{max}·m_i\in [0, 1]^{H\times W}\)，其中\(p_i^{max}=max_{k=1}^{K^{t-1}}p_i^o(k)\)，\(m_i^o\)是旧模型预测得到的mask，pseudo-class为\(c_i^{ps}=argmax_{k=1}^{K^{t-1}}p_i^o(k)\)。生成伪标签时需要注意，pseudo-mask与gt segment不能重叠；包含进pseudo-mask的像素置信度在所有输出中应该最大。令\(m_i^{bin}=m_i>0.5\)（即mask中概率大于0.5的位置为1，其余为0，类似pytorch的张量操作），gt segment的并为\(m_{all}^{gt}=\Sigma_{i=1}^{N^{ps}}m_i^{gt}\)（这里不是特别理解为什么是\(N^{ps}\)而不是\(N^{gt}\)），则：

截屏2023-02-06 17.27.09

事实上，可能存在一个pseudo-mask包含许多0，因此最终的伪标签segment集合只包含相对于\(m_i^{bin}\)至少有一半像素且至少有一个活动像素的mask（这里也没太理解什么是相对于\(m_i^{bin}\) ..），最终的标签数为\(N^{gt}+N^{ps}\)。

训练损失

通过匈牙利算法找到一组匹配，之后计算两个loss：\(L_{Seg}\)以及\(L_{AD}\)。\(L_{AD}\)计算的是自适应蒸馏损失，\(L_{Seg}\)如下：

截屏2023-02-06 22.16.54

前半部分是focal loss，\(L_{mask}\)是dice与cross-entropy的和。

实验

截屏2023-02-06 22.52.07

截屏2023-02-06 22.54.45

posted @ 2023-02-06 22:57 脂环阅读(192) 评论(0) 编辑收藏举报

刷新页面返回顶部

Loading

脂环

CoMFormer: Continual Learning in Semantic and Panoptic Segmentation论文阅读笔记

摘要

方法

Adaptive Distillation Loss

Mask-based Pseudo-labeling Strategy

训练损失

实验

公告