Deep Patch Visual SLAM 论文阅读

In particular, the camera pose predictions from visual SLAM enable one to easily ground multiple single-image predictions in a global reference frame. 解释下这段话：

这段话可以翻译为：

“视觉SLAM生成的相机位姿预测能够轻松地将多个单帧图像的预测结果锚定在一个全局参考坐标系中。”

这段话的意思是，视觉SLAM（Simultaneous Localization and Mapping, 即时定位与地图构建）技术可以通过摄像头捕捉到的连续图像来推测相机的位姿（位置和方向）。这些位姿预测可以帮助将来自多个单帧图像的预测结果统一到一个全局参考坐标系中。

具体来说：

在视觉SLAM过程中，系统能够根据摄像头的运动轨迹推测出相机在不同时间点的位置和方向。
这些相机的位姿信息可以用来对齐不同时间点拍摄的图像数据，确保它们在相同的全局坐标系中进行处理。
这样，多个单帧图像（即每个图像的独立预测或信息）可以被整合起来，并映射到统一的参考框架中，从而得到一致的结果。

总结起来，视觉SLAM提供的相机位姿预测能让我们把单个图像的独立预测，准确地定位在全局坐标系中，实现数据融合。

Unfortunately, this odometry+backend paradigm fundamentally breaks for SLAM systems based on deep networks, since two separate CUDA operations on the same device will usually run sequentially, not in parallel, even when called from separate processes. The consequence is that, on a single GPU, existing deep SLAM systems will periodically drop from
≈ 30hz to <1hz while waiting for a single iteration of their backend to run. Consistent real-time inference thus requires two separate GPUs.

解释下这段表述

这段话的意思是：

不幸的是，对于基于深度网络的SLAM系统来说，这种里程计+后台处理的范式在根本上是不适用的。因为即使是在不同的进程中调用，同一个设备上的两个CUDA操作通常会串行执行，而不是并行执行。这意味着，在单个GPU上，现有的深度SLAM系统在等待后台处理的单次迭代时，其处理频率可能会从大约30赫兹降到不到1赫兹。因此，要实现持续的实时推断，需要使用两个独立的GPU。

具体来说：

在深度SLAM系统中，处理流程分为里程计部分和后台处理部分。
在同一个GPU上，即使这两个部分分别由不同的进程处理，它们的CUDA操作也会顺序执行，导致处理效率降低。
这种瓶颈会导致系统的处理频率显著下降。
为了避免这个问题，保持实时推断的能力，通常需要两个GPU来同时处理不同的操作。

在同一个GPU上，即使两个不同的进程调用CUDA操作，它们通常会顺序执行而非并行执行，这是因为GPU的资源管理机制及其对CUDA操作的处理有以下几个特点：

GPU资源的独占性：
每个CUDA进程对GPU资源（如计算核心、内存等）有独占性的要求。当两个进程同时调用CUDA内核时，GPU必须在这些资源之间进行分配，但通常并不会并行地处理不同进程的CUDA任务。这是因为GPU驱动程序设计成让每个进程拥有完整的控制权，而不是同时处理多个进程的内核调用。
上下文切换开销：
在GPU上，CUDA任务的执行需要维护相应的上下文。每个CUDA进程有独立的上下文，在不同进程之间切换上下文时会引入开销。因此，虽然多个进程可以共享同一个GPU设备，但这些进程之间的CUDA操作并不会并行执行，而是会在上下文切换时产生延迟，使得操作顺序化。
CUDA任务的串行调度：
虽然GPU具有多个计算核心和高度并行的计算能力，但在多进程环境下，CUDA驱动会以顺序的方式调度来自不同进程的任务，确保每个任务能够完整地使用GPU资源。不同进程的任务通常不会交错执行，因为这可能引发数据一致性问题或者资源冲突。
GPU单一任务执行模型：
GPU设计的一个主要原则是尽量最大化单个计算任务的并行性。如果两个进程的CUDA任务并行运行，可能导致计算资源在多个任务之间分散，从而不能充分发挥单个任务的并行性能。因此，GPU往往优先让一个任务独占资源进行完整的并行计算。