问题:如何将单目图像提取成一个完整的3D语义体?

直觉:(1)如何利用3D空间的稀疏性,3D空间存在很多的空白空间;(2)在进行完全的3D表示之前,先进行重建可能会提供更好的可视化结果。

解决方案:基于两级Transformer架构。

 

posted on 2024-09-15 17:21  Google-boy  阅读(6)  评论(0编辑  收藏  举报