[Paper Reading] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

link
时间:22.07
机构:Nanjing University && Shanghai AI Laboratory

TL;DR

利用Transformer的Attention机制融合时空特征信息,在nuScenes测试集上达到SOTA精度,同时在速度估计以及可见度低路况也有明显精度提升。

Method

BEV Queries

BEV是一个可学参数的Tensor,Shape为(W, H, C),其中W, H即为BEV平面的定义(单位是m,以车身为中心点),每个grid中有一个channel为C的可学向量。

SCA(spatial cross attention)

如下公式所示,BEV平面上每个cell可以沿着高度方向lift出\(Nref\)个3D refer points,\(P(p, i, j)\)就是将BEV下P点的第j个高度上投影至在第i个view的2D点坐标,再使用该2D点坐标提取图像特征信息并与BEV Query \(Q_p\)加权得到此处query出的特征。

Temporal Self-Attention

同上,利用车身motation 6Dof信息将上一帧feature对齐到当前bev空间(与Q同坐标系)得到\(B'_{t-1}\),使用\(Q_p\)\(B'_{t-1}\)预测特征偏移\(p\),根据如下TSA公式计算attention特征。由于这种方法仅融合上一帧时序特征,计算量更小。

Q: 后续BEV上的特征是否还需要splat成为2D?
A: 根据公式中的\(\Sigma\)推测特征应该会沿着垂直方向求和,最终得到2D BEV平面上的特征。

Experiment

看实验结果TSA的作用很明显。

总结与发散

在BEV栅格中放Transformer的Query,利用几何关系去2D图像上Query对应特征,再填满BEV删格,整个过程更加E2E以及Transformer化。

相关链接

Code: https://github.com/zhiqi-li/BEVFormer

资料查询

折叠Title FromChatGPT(提示词:XXX)
posted @ 2024-05-20 21:44  fariver  阅读(45)  评论(0编辑  收藏  举报