总结:域自适应-跨域分割方法-城市场景-语义分割
论文组成部分
- 摘要:研究目的,研究内容,研究方法,结论
- 引言:提出本文要解决的问题。(开门见山、简明扼要 )
- 介绍相关研究的历史、现状、进展,说明自己的看法,以往工作的不足之处,自己研究的创新性或重要价值
-
要解决的问题、采取的方法,采用某种方法的理由
-
介绍论文的主要结果
-
注意⚠️:不要刻意回避或者不恰当地大量引用最重要的相关文献
- 实验:
- 方法和步骤(证明理论或方法的正确性、可行性和有效性)
- 方法(特别是算法)有效性的验证 。(所谓有效性:即给出评价指标)
-
定性和定量分析比较
-
空间复杂度和时间复杂度
-
实验结果分析
-
实验结果的表达要高度概括和提炼
- 注意⚠️:切忌在文字中简单地重复图表中的数据,而忽略叙述其趋势、意义以及相关推论
-
- 方法和步骤(证明理论或方法的正确性、可行性和有效性)
- 结论
- 对研究的主要发现和成果进行概括总结
- 提出当前研究的不足之处
- 对研究的前景和后续工作进行展望
师兄论文代码:AdaptSegNet, ADVENT, BDL, CCNet, CLAN, cycleGAN, FastPhotoStyle, IntraDA, MCD_DA, SEANet, SPSR, yolov4.
#############################################################################################################
研究背景
语义分割 ➢ 图像分析与理解 ➢计算机视觉 ➢ 自动驾驶/无人驾驶/VR虚拟现实增强/人机交互/医疗 ➢ 人工智能
语义分割:是计算机视觉和医学图像中的重要研究课题,其任务是对图像中的每个像素点进行分类,并使用不同颜色来标注图像中的不同目标类别。
(有标签)监督的语义分割的两大难题:
1.分割精度严重依赖大规模数据集和相应的真实标签——人工 收集大规模数据集和标签 费时费力,代价太大
2.监督方法训练出来的分割网络泛化性差/迁移能力差 (不同场景/不同拍摄条件)
真实场景数据和标签难获得
=====>借助于 虚假数据集和对应标签来对分割网络做监督训练,然后泛化到真实场景数据集(即,用 带标签的虚拟数据集 训练出来的分割网络 来对真实场景数据集做跨域分割)
(单纯的监督训练方法太难😰=====>😏跨域分割方法 诞生!!!)
跨域分割方法的难题
域差异/域漂移(domain shift)➢不同数据集(如 S和T)之间外观分布存在较大差异,导致分割网络泛化性能变差(具体就是:在源域数据集上训练出来的分割网络不能很好对目标域数据集进行分割。)
⬇︎解决跨域分割的域迁移问题🤨
(无标签)无监督 域自适应
- 目的 ➢ 提高分割网络的泛化能力 ➢ 对于一个相同的场景,如城市交通场景,希望 用训练集S训练出来分割网络模型 能够很好的泛化到测试集T上,即:测试集T上的分割效果也要很好。(也就是 域自适应方法能很好的实现跨域分割,对目标域也能很好的进行分割)
- 训练集:有标签的数据集,又叫源域S (source domain),通常是虚拟或合成数据集,如 SYN, GTA5
- 测试集:无标签的数据集,又叫目标域T (target domain);通常是真实场景数据集,如 Cityscapes
⬇︎域自适应常用方法
====跨域分割效果差,主要是因为用源域标签训练出来的分割网络,对目标域进行分割时,效果差=====>考虑可以拉近两个域的输入/输出分布。
(使目标域的输出分割图靠近源域)(使分割网络抽取到域不变特征)
(处理分割网络的输出部分)
Adversarial Learning(基于GAN网络)
➢ 2018-AdaptSegNet(特征级对抗训练)
不同域的数据集外观上虽然存在较大的域差异,但是它们在特征分割图上的差异却很小
Learning to Adapt Structured Output Space for Semantic Segmentation
(也就是说,分辨不同域的图片很容易,但是它们的分割特征图却很难分辨)。(在特征层面降低域差异)(在特征空间进行分布对齐)
具体步骤:(迭代训练)
- 分割源域,得到特征图 (两条支路)
- 和标签GT(groundtruth)进行交叉熵损失计算。(分割损失:使源域的预测分割图靠近GT)
- 送入判别器,使判别器学习对源域图片给一个高分。(判别损失)(判别器:使目标域的预测分割图靠近源域预测分割图)
- 分割目标域,得到特征图
- 送判别器,使判别器学习对目标域图片给一个低分。(判别损失)
(处理分割网络的输入部分)
➢CycleGAN(风格转换)(图像合成)
图片S和T送入cycleGAN中,生成具有T风格的新源域图片S',将S'和T送入分割网络。
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
(在图像层面降低域差异)
=====>既然真实场景数据集没有标签,那就给它生成一个伪标签(pseudo label)
(关键在于:怎么筛选置信度高的伪标签,理解one-hot编码方式,也就是标签在计算机中的存储方式)
➢自训练(2018-ECCV)
依靠网络自身生成数据集的伪标签,伪标签作为监督信息训练分割网络。
- 先用有标签的源域训练分割网络,
- 然后用训练的分割网络对目标域进行分割,得到预测分割图,
- 筛选置信度高的预测图作为伪标签
- 把伪标签和目标域一起送入分割网络,做监督训练
➢BDL
结合以上三种方法(对抗训练,图像合成,自训练)并提出双向学习。
主要内容🥱:对于图像合成,有转换效果好的图片,也有转换效果不好的图片。(以下步骤是为了产生最佳的合成图片)
➢将源域和合成的新源域送入分割网络,然后对两个分割预测图计算一个L1范数损失。
➢将源域经过两次转换变回一个新源域,对源域和新源域分割,然后也是计算L1范数损失。
➢将两个L1范数损失相加,作为Lper损失函数,反馈给cycleGAN.
➢CyCADA (2018-ICML)
循环一致性对抗域自适应,特征级和像素级同时对齐
CyCADA: Cycle-Consistent Adversarial Domain Adaptation
- 循环一致性损失:重构损失加L1范式
- 语义一致性损失:通过使用源域有标签的数据,鼓励模型在图像转化的前后保持较高的语义一致性
➢DAST(2020,GAN,ST,Attention)
注意力+判别器+自训练;分割网络=特征提取器+标签分类器
DAST: Unsupervised Domain Adaptation in Semantic Segmentation Based on Discriminator Attention and Self-Training
➢CLAN类级别对抗网络 (2019-CVPR (oral))
(语义不一致性问题)(对抗网络的全局特征对齐造成的负对齐)-互斥分类器,局部对齐分数图
=========== 非域自适应方法======================
➢AdvEnt
发现分割预测图的熵图如果是低熵值的话,就会呈现有序状态。高熵值的话,就会是杂乱无章的。
(和一般的特征对齐方法不同的主要区别就是:对源域和目标域的分割图做出熵图,然后送入判别器打分)
分割效果越好==分割图熵值越低==熵图越会是有序状态