论文阅读笔记-Understanding Road Layout from Videos as a Whole
Title:Understanding Road Layout from Videos as a Whole
题目:从视频整体理解道路布局
目标:给定一个视频序列,准确连贯的预测出每一帧的道路布局。主要估计俯视图。具体来说,对所有 \(t∈\{1,2,...,T\}\) (视频的帧数),准确且连贯的预测第 t 帧时刻的场景参数 \(Θ^t\) 。不是从单个图像进行预测,而是增强底层特征表示,并聚合视频的时间信息,以获得更稳定的时间预测。
输入:
- 局部的单个帧
- 整个视频序列
- 从上下文线索获得的信息
模型框架
模型:LSTM+FTM(Feature Transform Module)
- LSTM:结合长期预测的相干性。
- FTM:聚合有关估计的相机运动的信息并鼓励特征级别额一致性。
视频输入优于图像输入,但视频中的3D场景理解相对不足。
场景表示
参数化表示:三种不同的场景属性/参数,代表各种各样的道路场景布局。(遵循[38]中提出的参数表示)
- \(M^b=14\) 个二进制变量 \(Θ^b\)
- \(M^m=2\) 个多类变量 \(Θ^m\)
- \(M^c=22\) 个连续变量变量 \(Θ^c\)
某一视图下的道路场景表示为 \(x∈\mathbb{R}^{H×W×C}\)(high,width,categories), \(x^t\) 位于视频中的第 t 帧, x 可被视为任何通用表示。
基于 LSTM 的模型
整体模型定义:
其中 \(y^t\) 是辅助的中间表示。 \(h\),\(g_*\),\(f_*\) 是神经网络,权重分别为 \(γ_h\),\(γ_{g*}\),\(γ_{f*}\) (这些是要训练的东西)。
- \(g_i\):一层的CNN;
- \(g_j\):七层的CNN;
- \(h\):MLP多任务网络,对场景模型的每个参数组进行三个独立的预测。
FTM:
假设在\(g_i\)之后,我们可以提取一个特征映射\(F = g_i(x)∈\mathbb{R}^{h_f ×w_f ×c_f}\),其中\(h_f\)、\(w_f\)和\(c_f\)分别表示高度、宽度和特征维数。从相邻帧中聚合场景中相同位置的特征,并将合成的特征输入到后面的预测层中。直观上,我们希望网络利用同一点上的特征,但从不同的角度进行更稳健的预测,以及鼓励更时间一致的特征学习。
为聚合统一空间位置对应的特征,要在相邻帧中找到两个特征映射之间的对应关系,方法是计算相邻透视图之间的光流。
给定特征映射之间的对应关系,将时间步 t−1 的特征映射弯曲到当前时间步 t ,表示为:
其中\(\phi(*)\)是双线性采样函数。\(S^{t-1}(x^t,x^{t-1})∈\mathbb{R}^{h_f ×w_f ×2}\) 是帧 t 和 t-1 之间的位移(或流)场。
特征构成:
多种方式可以聚合特征映射 \(g_{tf}(F^{t-1})\) 和 \(F^t\) ,这里采用简单加权求和:
其中 \(α\) 可以是标量也可以是矩阵, \(α\) 与网络的其他部分一起自动学习,无需监督。
对于 t=1 时的特殊情况,简单假设 \(g_{tf}(F^{t-1})=F^t\) 。
损失函数:
给定由 \(N^r\) 个视频组成的注释数据集 \(D^r\) 将损失函数$L^r_{sup}定义为:
其中 BEC 为 binary cross entropy , CE 为 cross entropy , \(l_1\) 为 \(l_1\) 损失。
\(\hatΘ^t_{*,i}\) 为第 i 个视频序列的第 t 帧的 groundtruth layout parameters。
将回归任务中的连续变量离散化——通过将以\(Θ_c\)为中心的狄拉克函数与方差固定的高斯函数进行卷积,将每个变量离散化为K=100个箱子。
模型输入
用视频中的上下文和全局信息来改进x的表示。
局部单帧信息
利用 bev 映射:
- (1)将所有道路像素反向投影到一个3D点云中
- (2)将所有3D点投影到x-y平面上
- (3)得到一幅道路的俯视图图像。
将每个像素的语义类概率分布从透视图转移到俯视图。
bev 表示为\(x∈\mathbb{R}^{H×W×C}\),其中C为语义类的数量。H = 128, W = 64 像素,对应点云中的 60×30 米。
上下文信息
本文中C=5类,道路,人行道,车道,人行横道,对象类(交通参与者,如:行人、汽车等)。
整合上下文线索的方法:
- 直接将对象的像素级概率映射到俯视图。\(\times\) 会导致扩散表示,并且可能非常嘈杂。
- 用边界框表示。\(\surd\)
将现有的3D物体检测器应用到我们的视频中,并将检测结果映射到俯视图中。
为了减少角度预测的影响,进一步将角度分为两种类型,正面和侧面。只要预测的偏转角相对于相机 z 轴(向前方向)在 \([-\frac{π}{4},\frac{π}{4}]\) 或 \([\frac{3π}{4},\frac{5π}{4}]\) 范围内,我们就假定这个预测的物体是正面的。否则为侧面。
来自视频序列的全局信息
我们利用COLMAP中最先进的SfM和MVS算法,以及二维图像中的语义分割,从视频中生成顶视图地图(表示为bev-col)。
步骤:
- 我们首先对COLAMP返回的密集点云进行三维语义分割。
- 我们根据可见性映射将每个三维点投影到图像中,从二维语义分割中获得候选语义;
- 采用简单的赢者通吃策略来确定每个点的最终语义标签。
- 通过三维语义分割,我们可以提取道路部分的三维点,并通过RANSAC将其拟合为二维平面。
- 最后,我们可以根据相机姿态和我们预先定义的俯视图图像大小和分辨率,在2D道路平面上裁剪一个矩形框来生成bev-col;将平面上的三维点转换为图像中的像素点。
- 在获得全局平面参数后,利用摄像机姿态将全局平面参数转换为相对于摄像机的局部参数。
的三维重建的绝对规模可以从GPS或相机地面高度在驾驶场景中检索
最终的输入
- 1.来自单个帧的局部信息
- 2.来自视频的全局信息
- 3.对象级别的上下文信息
1 和 2 可以相互提供信息。
我们提出的俯视图语义地图bev-final在\(\mathbb{R}^{H×W×C}\)中,其中C = 5,层代表四个背景类和汽车;我们将 bev-col 叠加在 bev 上,将它们融合在一起。具体来说,对于一个二元掩码\(B\),如果\(bev-col_{i,j}\neq0\),则\(B_{i,j}=1\),我们有\(bev-final = bev-col \odot B + bev\odot(1−B)\),其中\(\odot\)表示元素级积。
[38] Ziyan Wang, Buyu Liu, Samuel Schulter, and Manmohan Chandraker. A parametric top-view representation of complex road scenes. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2019.