问题:如何将单目图像提取成一个完整的3D语义体?
直觉:(1)如何利用3D空间的稀疏性,3D空间存在很多的空白空间;(2)在进行完全的3D表示之前,先进行重建可能会提供更好的可视化结果。
解决方案:基于两级Transformer架构。