点云分割网络---Point Transformer V1

PDF: 《Point Transformer》
CODE: https://github.heygears.com/POSTECH-CVLab/point-transformer

一、大体内容

Point Transformer基于自注意力网络实现网络模型的构建。通过设计针对点云的自注意力层,结合位置编码构建Transformer block,利用自注意力机制,实现包括语义分割,部件分割以及识别任务,并取得了不错的效果,如在用于大规模场景分割的具有挑战性的S3DIS数据集上,Point Transformer在区域5上的mIoU达到70.4%,比最强的先前模型高3.3个绝对百分点,并首次超过70%mIoU阈值。

二、贡献点

  1. 设计了基于点云的自注意力层,自注意力层与顺序无关天然适合处理无序点云数据
  2. 基于点自注意力层,构建了高性能的点变换器网络,可直接用于点云的分类和密集预测,也可以作为3D场景理解的骨干网络。

三、细节

3.1 Point Transformer Layer

主要用于分析点在其邻域内的自注意力,可以用下式表示:

其中\(y_i\)表示输出特征,\(x_i\)表示输入特征,\(\chi(i) \subseteq \chi\)表示\(x_i\)的邻域,$\varphi, \psi, \alpha \(表示逐点特征变换,\)\delta\(表示位置编码,\)\rho\(表示标准化操作,\)\gamma$表示映射函数。
Point Transformer Layer如下图所示:

3.2 位置编码(Position Encoding)

由于点云坐标本身就可以表示位置信息,所以这里直接对相对坐标进行映射。

这里的映射函数\(\theta\)是一个包含两层线性层的MLP和一个Relu层的组合。

3.3 网络结构

将Point Transformer Layer作为基础算子,然后构建分割网络和分类网络如下:

分割网络采用Encoder和Deconder编码结构,而分类网络特征提取后直接接一个线性层输出,point transformer block、transition down和transition up的结构如下:

四、效果

4.1 语义分割



4.2 部件分割


4.3 分类

posted @ 2024-06-26 23:26  半夜打老虎  阅读(81)  评论(0编辑  收藏  举报