[Paper Reading] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

link
时间:22.07
机构:Nanjing University && Shanghai AI Laboratory

TL;DR

利用Transformer的Attention机制融合时空特征信息,在nuScenes测试集上达到SOTA精度,同时在速度估计以及可见度低路况也有明显精度提升。

Method

BEV Queries

BEV是一个可学参数的Tensor,Shape为(W, H, C),其中W, H即为BEV平面的定义(单位是m,以车身为中心点),每个grid中有一个channel为C的可学向量。

SCA(spatial cross attention)

如下公式所示,BEV平面上每个cell可以沿着高度方向lift出Nref个3D refer points,P(p,i,j)就是将BEV下P点的第j个高度上投影至在第i个view的2D点坐标,再使用该2D点坐标提取图像特征信息并与BEV Query Qp加权得到此处query出的特征。

Temporal Self-Attention

同上,利用车身motation 6Dof信息将上一帧feature对齐到当前bev空间(与Q同坐标系)得到Bt1,使用QpBt1预测特征偏移p,根据如下TSA公式计算attention特征。由于这种方法仅融合上一帧时序特征,计算量更小。

Q: 后续BEV上的特征是否还需要splat成为2D?
A: 根据公式中的Σ推测特征应该会沿着垂直方向求和,最终得到2D BEV平面上的特征。

Experiment

看实验结果TSA的作用很明显。

总结与发散

在BEV栅格中放Transformer的Query,利用几何关系去2D图像上Query对应特征,再填满BEV删格,整个过程更加E2E以及Transformer化。

相关链接

Code: https://github.com/zhiqi-li/BEVFormer

资料查询

折叠Title FromChatGPT(提示词:XXX)
posted @   fariver  阅读(137)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示