DuLa-Net: A Dual-Projection Network for Estimating Room Layouts from a Single RGB Panorama和BiFuse: Monocular 360◦ Depth Estimation via Bi-Projection Fusion

这两篇论文做的工作都是关于全景图的工作，一篇是做layout的估计，另外一篇是做深度估计，他们相同点是都用了不同视角的图像来作为输入，将全景图和透视图之间的特征进行融合来做高层的任务。

dula-net
BiFuse

dula-net

这篇文章做的工作做的任务是估计非cuboid的室内场景的layout，作者使用了两路branch，一路是panorama的branch，另外一路是ceilling的branch，通过一个E2P的stn将其特征进行变换和融合，然后将最终的结果也进行融合，并且生成最后的layout
作者的贡献点在于使用了两种不同的输入，以及feature fusion这样的一个层，并且作者说不怎么需要后处理就能够得到比较好的layout，因为作者处理的case不仅仅包含cuboid的shape，作者也处理非规则的cuboid，所以建了个数据集，corners比较多。流程图如下

feature 融合的方式是从panorama向下融合，直接采用相加的方式

注意上图还是有post process的，训练的方式是对两个网络分别使用交叉熵loss，作者做了一些实验验证其方法是有效的，对比对象主要是layoutnet，发现都是超过之前的试验结果的。
感觉这篇文章的主要创新点在于使用了一个E2P的stn layer，下一篇文章也是类似的创新

BiFuse

这一篇文章做的是深度估计，和上一篇文章是一样的，ta提出了一个是e2c还有一个是c2e的两个stn，用于融合两个branch的特征，同时作者提出了一种spherecial的padding方法，

对比的对象有omnidepth的一篇文章，以及FCRN的单目图像估计的文章
作者在消融实验部分也比较了是否添加fuse，两个单路的情况是怎么样的，发现加了fuse对于有些指标提升并不是很大

posted on 2020-11-22 16:21 YongjieShi 阅读(365) 评论(0) 编辑收藏举报

刷新页面返回顶部

YongjieShi

DuLa-Net: A Dual-Projection Network for Estimating Room Layouts from a Single RGB Panorama和BiFuse: Monocular 360◦ Depth Estimation via Bi-Projection Fusion

dula-net

BiFuse

公告

导航