深度学习3D分割综述文献

前面介绍了3D目标检测的一些综述文献，这一篇接着介绍两篇3D分割的综述文献。第一篇是23年的《Deep Learning Based 3D Segmentation: A Survey》，第二篇是19年的《Deep Learning for 3D Point Clouds: A Survey》。第二篇主要是点云方面的文章，第一篇更加广泛全面，这里重点介绍第一篇。

一、《Deep Learning Based 3D Segmentation: A Survey》

PDF: https://arxiv.org/pdf/2103.05423

覆盖180篇文章，前面章节介绍了常用的数据集以及评价指标，然后从语义分割、实例分割和部件分割三部分展开，分别给出了对应的文献以及关键贡献点。

1.1 常用的公开数据集：

S3DIS
在这个数据集中，使用Matterport扫描仪在没有任何手动干预的情况下获得了完整的点云。该数据集由271个房间组成，属于来自3个不同建筑的6个大型室内场景（总面积6020平方米）。这些区域主要包括办公室、教育和展览空间以及会议室等。
Semantic3D
由静态地面激光扫描仪采集的总共约40亿个3D点组成，在真实世界的3D空间中覆盖160×240×30米。点云分为8类（如城市和农村），包含三维坐标、RGB信息和强度。与2D注释策略不同，3D数据标记很容易受到过度分割的影响，其中每个点都被单独分配给一个类标签。
SemanticKITTI
是一个大型户外数据集，包含28个类的去尾逐点注释。基于KITTI视觉基准Geiger、Lenz和Urtasun（2012），SemanticKITTI包含该基准的所有22个序列的注释，这些序列由43K扫描组成。此外，数据集包含旋转激光传感器的完整水平360视场的标签。
ScanNet
数据集对于场景理解的研究尤其有价值，因为它的注释包含估计的校准参数、相机姿态、3D表面重建、纹理网格、密集对象级语义分割和CAD模型。该数据集包括对真实世界环境的带注释的RGB-D扫描。在707个不同的地方采集的1513次扫描中有250万张RGB-D图像。在RGB-D图像处理之后，使用Amazon Mechanical Turk执行注释人类智能任务。
ShapeNet
数据集提供了一种新的可扩展方法，用于对大量三维形状集合进行高效准确的几何标注。新的技术创新明确地建模并减少了注释工作的人力成本。研究人员在ShapeNetCore中创建了形状类别中31963个模型的详细逐点标记，并将基于特征的分类器、点对点相关性和形状与形状的相似性结合到形状网络上的单个CRF优化中。

1.2 常用的度量指标

3D语义分割度量指标
对于3D语义分割常用的有：Overall Accuracy (OAcc), mean class Accuracy (mAcc) and mean class Intersection over Union (mIoU)。
3D实例分割度量指标
对于3D实例分割常用的有：Average Precision (AP)和 mean class Average Precision (mAP) 。
3D部件分割度量指标
对于3D部件分割常用的度量指标有：overall average category Intersection over Union ( $𝑚𝐼𝑜𝑈_{𝑐𝑎𝑡}$ ) 和 overall average instance Intersection over Union ( $𝑚𝐼𝑜𝑈_{ins}$ )