用于多模式三维目标检测的虚拟稀疏卷积

Virtual Sparse Convolution for Multimodal 3D Object Detection

https://openaccess.thecvf.com/content/CVPR2023/papers/Wu_Virtual_Sparse_Convolution_for_Multimodal_3D_Object_Detection_CVPR_2023_paper.pdf

摘要

近年来，通过深度补全将RGB图像和激光雷达数据无缝融合的基于虚拟/伪点的3D对象检测得到了极大的关注。然而，从图像生成的虚拟点非常密集，在检测过程中引入了大量的冗余计算。同时，深度补全不准确带来的噪声显著降低了检测精度。本文基于一种新的算子VirConv（虚拟稀疏卷积），提出了一种快速而有效的主干，称为VirConvNet，用于基于虚拟点的三维对象检测。

VirConv由两个关键设计组成：（1）StVD（随机体素丢弃）和（2）NRConv（抗噪声子流形卷积）。StVD通过丢弃大量附近的冗余体素来缓解计算问题。NRConv通过在2D图像和3D激光雷达空间中对体素特征进行编码来解决噪声问题。通过集成VirConv，首先开发了一种基于早期融合设计的高效管道VirConv-L。

通过集成VirConv，首先在早期融合设计的基础上开发了一种高效的管道VirConv-L。然后，基于变换的细化方案构建了一个高精度流水线VirConv-T。最后，开发了一个基于伪标签框架的半监督管道VirConv-S。在KITTI汽车3D检测测试排行榜上，VirConv-L以56ms的快速运行速度实现了85%的AP。VirConv-T和VirConv-S获得了86.3%和87.2%的高精度AP，目前分别排名第二和第一。代码位于

https://github.com/hailanyi/VirConv.

1.简介

三维物体检测在自动驾驶中起着至关重要的作用。

激光雷达传感器以点云的形式测量场景的深度，并能够在各种照明环境中可靠地定位物体。尽管近年来基于激光雷达的三维物体检测取得了快速进展，但其在远距离物体上的性能显著下降，这些物体在扫描中不可避免地具有稀疏的采样密度。与激光雷达扫描不同，彩色图像传感器提供高分辨率采样和丰富的场景背景数据。RGB图像和激光雷达数据可以相互补充，通常可以提高3D检测性能。

早期的方法用图像特征扩展了激光雷达点的特征，如语义掩码和2D CNN特征。他们没有增加点数；因此，远处的点仍然是稀疏的。相反，基于虚拟/伪点的方法（为了简单起见，在下文中都表示为虚拟点）通过在激光雷达点周围创建额外的点来丰富稀疏点。例如，MVP通过从最近的3D点完成2D实例点的深度来创建虚拟点。SFD[36]基于深度完成网络创建虚拟点。虚拟点完成了远处物体的几何图形，显示出高性能3D检测的巨大潜力。

然而，从图像生成的虚拟点通常是非常密集的。以KITTI数据集为例，1242×375的图像生成466k个虚拟点（比激光雷达扫描点多约27倍）。这带来了巨大的计算负担，并导致了严重的效率问题（见图2（f））。先前的工作通过使用较大的体素大小或通过对点进行随机下采样来解决密度问题。然而，将这种方法应用于虚拟点将不可避免地牺牲来自遥远点的有用形状线索，并导致检测精度下降。

另一个问题是深度完成可能不准确，并且在虚拟点中带来大量噪声（见图第2（c）段）。

由于在三维空间中很难区分噪声和背景，因此三维检测的定位精度大大降低。此外，噪声点是非高斯分布的，传统的去噪算法无法对其进行滤波。

图1. 在KITTI基准测试中，VirConv-T在3D和纯电动汽车中等汽车检测方面都达到了最高平均精度（AP）（更多细节见表1）。VirConv-L在具有竞争力的AP的情况下以56毫秒的速度快速奔跑。

图2:虚点的噪声问题和密度问题。（a）三维空间中的虚拟点。（b）二维空间中的虚拟点。（c）三维空间中的噪声（红色）。（d）分布在二维实例边界上的噪声（红色）。（e）通过使用具有后期融合的体素RCNN，虚拟点数与AP沿不同距离的改进。（f）分别使用仅具有LiDAR、仅具有虚拟点、早期融合和晚期融合的体素RCNN的汽车3D AP和推理时间。

尽管最近的语义分割网络显示出有希望的结果，但它们通常需要额外的注释。为了解决这些问题，本文提出了一种基于新的虚拟稀疏卷积（VirConv）算子的VirConvNet流水线。设计基于两个主要观察结果。（1）首先，在激光雷达扫描中，附近物体的几何形状通常相对完整。因此，附近物体的大多数虚拟点只带来边际性能增益（见图2（e）（f）），但显著增加了计算成本。（2）其次，由不准确的深度完井引入的噪声点大多分布在实例边界上（见图第2（d）段）。

它们可以在被投影到图像平面上之后在2D图像中被识别。基于这两个观察结果，设计了一种StVD（随机体素丢弃）方案，通过基于桶的采样来保留那些最重要的虚拟点，即丢弃大量附近的体素，同时保留远处的体素。这可以大大加快网络计算的速度。还设计了一个NRConv（抗噪子流形卷积）层来编码三维空间和二维图像空间中体素的几何特征。2D空间中扩展的感受野允许NRConv区分2D图像空间中实例边界上的噪声模式。因此，可以抑制噪声的负面影响。

开发了三种多模式检测器来展示VirConv的优势：

（1）由体素RCNN构建的轻量级VirConv-L；（2）基于多级多变换设计的高精度VirConv-T；（3）基于伪标签框架的半监督VirConvS。在广泛使用的KITTI数据集和nuScenes数据集上进行了大量实验，验证了设计的有效性。

贡献总结如下：

•提出了一种VirConv算子，该算子通过StVD和NRConv对虚拟点的体素特征进行有效编码。StVD丢弃了大量冗余体素，显著加快了3D检测的速度。NRConv将3D稀疏卷积的感受野扩展到2D图像空间，并显著降低了噪声点的影响。

•在VirConv的基础上，提出了三种新的多模式检测器：分别用于高效、高精度和半监督3D检测的VirConv-L、VirConv-T和半监督VirConv-S。

•大量实验证明了设计的有效性（见图1）。在KITTI排行榜上，VirConv-T和VirConv-S目前分别排名第二和第一。VirConv-L以具有竞争力的精度以56毫秒的速度运行。

2.相关工作

基于激光雷达的三维物体检测。近年来，基于激光雷达的三维物体检测得到了广泛的研究。早期的方法将点云投影到2D鸟瞰图（BEV）或测距图图像中用于3D检测。

最近，基于体素的稀疏卷积和基于点的集合抽象在设计有效的检测框架中变得流行起来。然而，对于遥远的物体，激光雷达的扫描分辨率通常非常低。仅限激光雷达的探测器通常会受到这种稀疏性的影响。本文通过以虚拟点的形式引入RGB图像数据来解决这个问题。

多模式三维物体检测。RGB图像和激光雷达数据可以相互补充，通常可以提高3D检测性能。早期的方法利用图像特征扩展了激光雷达点的特征。一些工作独立地对两种模态的特征进行编码，并在局部感兴趣区域（RoI）或BEV平面中融合这两种特征。遵循最近通过虚拟点融合两个数据的工作。虚拟点通过深度估计明确地完成了远处物体的几何结构，显示出高性能3D检测的巨大潜力。

图3.（a） VirConv区块由StVD层、一些NRConv层和3D SpConv层组成。（b） NRConv将体素投影回图像空间，并在2D和3D空间中对虚拟点特征进行编码。（c） VirConv-L将激光雷达点和虚拟点融合为一个点云，并通过VirConvNet对多模式特征进行编码，用于3D检测。

但是虚拟点是非常密集的并且经常是嘈杂的。本文分别通过StVD和NRConv两种新方案来解决这些问题。

使用重新采样的点云进行3D对象检测。

激光雷达捕捉到的点通常密集且分布不均。先前的工作通过使用更大的体素大小或通过随机下采样点云来加速网络。然而，将这些方法应用于虚拟点将显著减少有用的几何提示，尤其是对于遥远的对象。与此不同的是，StVD保留了所有有用的远距离体素，并通过丢弃附近的冗余体素来加快网络速度。

3D视觉中的噪声处理。传统的方法是通过滤波算法来处理噪声。最近，基于分数和语义分割网络被开发用于点云噪声去除。

与传统的在三维空间中随机分布的噪声不同，深度补全不准确带来的噪声大多分布在二维实例边界上。虽然某些二维边缘检测方法可以粗略地去除噪声，但这将牺牲物体的有用边界点。设计了一种新的方案NRConv，将3D稀疏卷积的感受野扩展到2D图像空间，在不损失有用边界点的情况下区分噪声模式。

半监督三维物体检测。最近的半监督方法通过大量未标记的数据来增强3D对象检测。受基于伪标签的框架的启发，还构建了一个VirConv-S管道来执行半监督多模式3D对象检测。

3.用于多模式3D检测的VirConv

本文提出了一种基于新的VirConv算子的VirConvNet，用于基于虚拟点的多模式三维对象检测。如图6所示，3，VirConvNet首先将点转换为体素，并通过一系列具有1×、2×、4×和8×下采样步长的VirConv块将体素逐渐编码为特征体积。VirConv块由三个部分组成（见图3（a））：（1）用于加速网络和提高密度鲁棒性的StVD层；

（2）多个NRConv层，用于对特征进行编码并减少噪声的影响；（3） 3D SpConv层，用于对所述特征图进行下采样。基于VirConv算子，构建了三个检测器，分别用于高效、准确和半监督的多模式3D检测。

3.1用于数据融合的虚拟点

许多最近的3D检测器使用通过深度完成算法从图像生成的虚拟点（伪点）来融合RGB和LiDAR数据。

将激光雷达点和虚拟点分别表示为P和V。

最近，两种流行的融合方案已被应用于3D物体检测：（1）早期融合，将P和V融合成一个单点云P*，并使用现有的检测器进行3D物体检测；（2）后期融合，通过不同的骨干网络对P和V的特征进行编码，并将这两种类型的特征融合在BEV平面或局部RoI中。然而，这两种融合方法都存在虚拟点的密集性和噪声性。

（1）密度问题。如第1节所示，虚拟点通常非常密集。它们引入了巨大的计算负担，这显著降低了检测速度（例如，图2（f）中超过2倍）。现有工作通过使用更大的体素大小或通过对点随机下采样来解决密度问题。

但这些方法将不可避免地牺牲来自虚拟点的形状线索，尤其是对于遥远的物体。基于使用后期融合的体素RCNN在KITTI数据集上的试点实验，观察到

为附近对象引入的大量虚拟点是多余的。具体而言，来自附近对象的97%的虚拟点仅带来0.18%的性能改进，而来自远处对象的3%的虚拟点

带来2.2%的性能提升。原因是对于激光雷达点来说，附近物体的几何结构相对完整。这样的虚拟点通常带来边际性能增益，但增加了不必要的计算。

基于这一观察结果，设计了一种StVD（随机体素丢弃）方案，该方案通过丢弃附近的冗余体素来缓解计算问题。此外，远处物体的点比附近物体的点稀疏得多（见图2（e））。

StVD可以模拟稀疏的训练样本，以提高检测的鲁棒性。

（2）噪音问题。深度完成网络生成的虚拟点通常是有噪声的。一个例子如图2（c）所示。噪声主要是由不准确的深度完成引入的，并且在3D空间中很难区分。通过仅使用虚拟点，与仅使用激光雷达的检测器相比，检测性能下降了~9%AP（见图2（f））。此外，噪声点是非高斯分布的，传统的去噪算法无法对其进行滤波。观察到，噪声主要分布在实例边界上（见图2（d）），并且可以在2D图像中更容易地识别。尽管这里可以应用边缘检测来粗略地去除噪声，但这将牺牲有益于对象的形状和位置估计的有用边界点。

想法是将稀疏卷积的感受野扩展到2D图像空间，并在不丢失形状线索的情况下区分噪声。

3.2.随机体素丢弃

为了缓解计算问题并提高基于虚拟点的检测器的密度鲁棒性，开发了StVD。它由两部分组成：（1）输入StVD，它通过在训练和推理过程中丢弃虚拟点的输入体素来加速网络；（2）层StVD，其通过仅在训练过程中丢弃每个VirConv块处的虚拟点的体素来提高密度鲁棒性。

输入StVD。两种简单的方法可以保持较少的输入体素：（1）随机采样或（2）最远点采样（FPS）。然而，随机采样通常将不平衡的体素保持在不同的距离，并不可避免地牺牲了一些有用的形状线索（在图中的红色区域）。第4（a）（b）段）。

此外，由于计算复杂度高（O（n2）），在对大量虚拟点进行下采样时，FPS需要大量的额外计算。为了解决这个问题，引入了一种基于仓的采样策略来执行高效和平衡的采样（见图4（c））。具体来说，首先根据不同的距离将输入体素划分为Nb个仓（本文中采用Nb=10）。对于附近的仓（根据图2（e）中的统计数据，≤30m），随机保留固定数量（～1K）的体素。对于远处的仓，保留所有内部体素。

图4.（a）（b）分别示出对所有体素和附近体素进行随机采样后的体素分布。（c）显示了对所有体素进行基于bin的采样后的体素分布。

在基于二进制的采样之后，丢弃了大约90%的冗余体素（这实现了最佳的精度-效率权衡，见图6），并将网络速度提高了大约2倍。

层StVD。为了提高稀疏点检测的鲁棒性，还开发了一个应用于训练过程的层StVD。具体来说，在每个VirConv块处丢弃体素，以模拟稀疏的训练样本。在本文中，采用了15%的丢弃率（图6中讨论了层StVD率）。层StVD用作数据增强策略，以帮助增强3D检测器的训练。

3.3抗噪声子流形卷积

如第3.1节所分析的，由不准确的深度完成引入的噪声很难从3D空间中识别出来，但可以很容易地从2D图像中识别出来。

从广泛使用的子流形稀疏卷积[10]中开发了一个NRConv（见图3（b））来解决噪声问题。具体地说，给定N个输入体素，由3D索引向量

和特征向量表示

在中，在3D和2D图像空间中对抗噪声几何特征

进行编码，其中

和

分别表示输入和输出特征通道的数量。

对三维空间中的几何体特征进行编码。对于X中的每个体素特征

，首先通过3D子流形卷积核

对几何特征进行编码。具体而言，几何特征

基于相应的3D索引，从3×3×3邻域内的非空体素计算为

其中

表示由H生成的相邻特征，并且R表示非线性激活函数。

编码2D图像空间中的噪声感知特征。

不准确的深度完成带来的噪声显著降低了检测性能。由于噪声主要分布在2D实例边界上，将卷积感受野扩展到2D图像空间，并使用2D相邻体素对噪声感知特征进行编码。具体来说，首先基于体素化参数将3D索引转换为一组网格点（转换表示为G（·））。由于最先进的检测器也采用了变换增强（表示为T（·）的增强），如旋转和缩放，因此网格点通常与相应的图像不对齐。因此，根据数据扩充参数将网格点向后变换到原始坐标系中。

然后，基于LiDARCamera校准参数将网格点投影到2D图像平面中（投影表示为P（·））。总体预测可概括为

其中

表示2D索引矢量。对于每个体素特征

，然后，基于相应的2D索引从3×3邻域内的非空体素计算噪声感知特。

其中

表示由

生成的相邻体素特征，

表示2D子流形卷积核。如果单个2D相邻体素中有多个特征，执行最大池化，并在每个体素中保留一个特征以执行2D卷积。

在3D和2D特征编码之后，采用简单的级联来隐式学习抗噪声特征。具体来说，最后连接

和

，得到抗噪声特征向量

为

。与相关的噪声分割和去除方法不同，NRConv通过将感受野扩展到2D图像空间来隐式地区分噪声模式。因此，在不丢失形状线索的情况下抑制了噪声的影响。

图5. 转换后的细化方案。输入首先通过不同的旋转和反射进行变换。然后，VoxelNet和VirConvNet分别对激光雷达和虚拟点特征进行编码。接下来，RoI由不同转换下的主干特征生成和细化。最后，对不同阶段的细化罗伊进行框投票融合。

3.4.使用VirConv的检测框架

为了证明VirConv的优越性，从广泛使用的Voxel RCNN构建了VirConv-L、VirConv-T和VirConv-S，分别用于快速、准确和半监督的3D对象检测。

VirConv-L。首先构建了轻量级的VirConvL（图3（c）），用于快速多模式3D检测。VirConvL采用了早期融合方案，并用VirConvNet取代了Voxel RCNN的主干。具体而言，将激光雷达点表示为

。其中x，y，z表示坐标，α表示强度。将虚拟点表示为

。将它们融合成一个单点云

，其中

是表示点来自何处的指示符。虚拟点的强度由零填充。融合点由VirConvNet编码为特征体积，用于3D检测。

VirConv-T。然后，基于变换细化方案（TRS）和后期融合方案构建了高精度的VirConv-T（见图5）。CasA和TED基于三阶段细化和多重变换实现高检测性能

设计。然而，这两者都需要大量的计算。将两个高计算量的检测器融合到一个高效的管道中。具体来说，首先用不同的旋转和反射来变换P和V。然后分别采用VoxelNet和VirConvNet对P和V的特征进行编码。

与TED类似，不同变换之间的卷积权重是共享的。

之后，RoI由区域建议网络（RPN）生成，并由第一变换下的主干特征（通过简单级联融合的P和V的RoI特征）进行细化。在其他转换下，主干功能将进一步细化细化的ROI。接下来，来自不同细化阶段的细化RoI通过框投票进行融合，就像CasA所做的那样。最后对融合的ROI执行非最大值抑制（NMS）以获得检测结果。

VirConv-S。还使用广泛使用的伪标签方法设计了一个半监督管道VirConv-S。具体地，首先，使用标记的训练数据对模型进行预训练。然后，使用这个预先训练的模型在更大规模的未标记数据集上生成伪标签。采用高分阈值（根据经验，0.9）来过滤低质量标签。最后，使用真实标签和伪标签对VirConv-T模型进行训练。

表1. KITTI测试集上的汽车3D检测结果，其中最佳完全监督方法以粗体显示，*表示结果来自KITTI排行榜。VirConv-T在3D AP和BEV AP指标方面都优于所有其他方法。此外，VirConv-L以85.05 AP的速度在56ms处快速运行，并且VirConv-S达到87.20 AP的高检测性能。

4.实验

4.1.KITTI数据集和评估指标

KITTI 3D物体检测数据集分别包含7481和7518个用于训练和测试的激光雷达和图像帧。根据最近的工作，将训练数据划分为3712帧的训练分割和3769帧的验证分割。还采用了广泛使用的评估指标：40个召回阈值（R40）下的3D平均精度（AP）。对于汽车、行人和骑自行车的人，该指标中的IoU阈值分别为0.7、0.5和0.5。使用KITTI里程计数据集作为大规模未标记数据集。KITTI里程计数据集包含43552个激光雷达和图像帧。对10888个帧（表示为半数据集）进行了均匀采样，并使用它们来训练VirConv-S。在检查了KITTI发布的映射文件后，在KITTI 3D检测数据集和KITTI里程测量数据集之间没有发现重叠。

4.2.设置详细信息

网络详细信息。与SFD类似，方法使用PENet生成的虚拟点。VirConvNet采用了类似于体素RCNN主干的架构。VirConvNet包括四个级别的VirConv块，其特征尺寸分别为16、32、64和64。默认情况下，输入StVD速率和层StVD速率分别设置为90%和15%。在KITTI数据集上，所有检测器使用与CasA相同的检测范围和体素大小。

损失和数据扩充。VirConv-L使用相同的训练损失。VirConv-T和VirConv-S使用与CasA相同的训练损失。在这三条管道中，采用了广泛使用的本地和全球数据

增强，包括地面实况采样、局部变换（旋转和平移）和全局变换（旋转与翻转）。

训练和推理细节。所有三个探测器都使用ADAM优化器在8个特斯拉V100 GPU上进行了训练。使用了0.01的学习率和单周期学习率策略。对VirConv-L和VirConv-T进行了60个时期的训练。VirConv-S的权重由经过训练的VirConv-T初始化。在标记和未标记的数据集上进一步训练了10个时期的VirConv-S。在训练过程中，使用0.8的NMS阈值生成160个具有1:1正样本和负样本的对象建议。在测试过程中，使用0.1的NMS阈值来删除提案细化后的冗余框。

4.3.主要结果

KITTI验证集的结果。在表2中报告了KITTI验证集的汽车检测结果。

与基线检测器Voxel RCNN相比，VirConv-L、VirConv-T和VirConv-S在中等级别的汽车中分别显示3.42%、5%和5.68%的3D AP（R40）改善。还报告了在11个召回阈值（R11）下基于3D AP的性能。VirConv-L、VirConv-T和VirConv-S在中等级别的汽车中分别显示出2.38%、3.33%和3.54%的3D AP（R11）改善。性能增益主要来源于VirConv设计，它有效地解决了虚拟点带来的密度问题和噪声问题。

请注意，由于高效的StVD设计，VirConv-L也比其他多模式检测器运行得更快。

表2. KITTI验证集上的3D汽车检测结果，其中EF和LF分别表示早期融合和晚期融合。

KITTI测试集的结果。KITTI测试集的实验结果如表1所示。VirConv-L、VirConv-T和VirConv-S在中型轿车中分别比基线VoxelRCNN[7]高3.43%、4.63%和5.58%的3D AP（R40）。VirConv-L、VirConvT和VirConv-S也分别比以前最好的3D探测器SFD[36]高0.29%、1.49%和2.44%。

截至CVPR截止日期（2022年11月11日），VirConv-T和VirConv-S在KITTI 3D物体检测排行榜上分别排名第二和第一。结果进一步证明了方法的有效性。

表3. 使用不同融合方案对KITTI验证集的消融结果。

表4. 使用不同设计组件对KITTI验证集的消融结果。

4.4.消融研究

不同融合方案下的VirConv性能。仅虚拟点、早期融合和后期融合是基于虚拟点的三维物体检测的三种潜在选择。为了研究VirConv在这三种设置下的性能，首先构建了三个基线：仅具有虚拟点的VoxelRCNN、具有早期融合的Voxel RCNN和具有晚期融合的Vossel RCNN。然后用VirConvNet替换了体素RCNN的主干。KITTI验证集的实验结果如表3所示。使用VirConv，在仅虚拟点、早期融合和晚期融合设置下，3D AP分别显著提高了3.43%、2.93%和2.65%。同时，效率显著提高。这是因为VirConv通过StVD设计加快了网络速度，并通过NRConv设计降低了噪声影响。

StVD的有效性。接下来研究了StVD的有效性。结果如表4所示。使用StVD，VirConv-T不仅可以进行更准确的3D检测，而且运行速度快约2倍。原因在于StVD丢弃了大约90%的冗余体素以加快网络速度，并且它还通过模拟更稀疏的训练样本来提高检测鲁棒性。

StVD速率的影响。然后，进行实验以选择最佳的输入和层StVD速率。结果如图6所示。观察到，使用更高的输入StVD速率，由于几何特征损失，检测性能将显著降低。相反，使用较低的输入StVD速率，效率降低，AP改善较差。发现，通过随机丢弃90%的附近体素，实现了最佳的准确性和效率。

图6. 左图：使用不同的输入StVD速率进行精度和速度权衡。右图：采用不同层StVD速率的检测性能。

图7. 3D AP和沿不同检测距离的性能改进（KITTI验证集）。

表6. nuScenes测试集的3D检测结果。

因此，本文采用了90%的输入StVD率。同样，通过使用15%的层StVD速率，实现了最佳的检测精度。

NRConv的有效性。然后，使用VirConv-T研究了NRConv的作用。结果如表4所示。使用NRConv，VirConv-T的汽车检测AP从88.32%提高到90.29%。由于NRConv对三维和二维图像空间中的体素特征进行编码，减少了深度完成不准确带来的噪声影响，检测性能显著提高。

TRS的有效性。进行了实验来检验TRS在VirConv-T中的作用。结果如表3所示。使用TRS，在仅虚拟点、早期融合和晚期融合的情况下，检测器的性能分别提高了1.36%、0.25%和1.32%。通过两次变换和两阶段细化获得了性能增益，提高了变换的鲁棒性，并带来了更好的检测性能。

多级别性能。还训练了多类VirConv-T，以使用单个模型检测汽车、行人和骑自行车的类实例。在表5中报告了多类3D对象检测性能，其中基线是指多类体素RCNN[7]。与基线相比，VirConv-T在所有类别中的检测性能都有了显著提高。结果表明，VirConv可以很容易地推广到多类模型，并提高检测性能。

性能细分。为了研究模型在哪些方面改进了基线，根据不同的距离来评估检测性能。结果如图7所示。三个检测器对遥远的物体有显著的改进，因为VirConv从虚拟点对遥远稀疏物体的更好的几何特征进行了建模。

nuScenes测试集的评估。为了证明方法的通用性，在nuScenes数据集上进行了实验。将方法与CenterPoint+VP（虚拟点）、TransFuison-L+VP和TransFusion进行了比较。采用了与TransFuison-L相同的数据增强策略，并在8个特斯拉V100 GPU上对网络进行了30个时期的训练。nuScenes测试集的结果如表6所示。使用VirConv，CenterPoint+VP和TransFuison-L+VP的检测性能显著提高。此外，带有VirConv的TransFusionL在NDS方面甚至超过了TransFusion，这表明模型能够显著提升基于虚拟点的检测器。

5.结论

本文提出了一种新的基于虚拟点的多模式三维物体检测的VirConv算子。VirConv通过新设计的随机体素丢弃和抗噪声子流形卷积机制解决了虚拟点的密度和噪声问题。在VirConv的基础上，提出了VirConv-L、VirConv-T和VirConv-S，分别用于高效、准确和半监督的3D检测。VirConvNet在KITTI汽车3D物体检测和BEV检测排行榜上都占据领先地位，证明了方法的有效性。

参考文献链接

Virtual Sparse Convolution for Multimodal 3D Object Detection

https://openaccess.thecvf.com/content/CVPR2023/papers/Wu_Virtual_Sparse_Convolution_for_Multimodal_3D_Object_Detection_CVPR_2023_paper.pdf