[Paper Reading] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
link
时间:22.07
机构:Nanjing University && Shanghai AI Laboratory
TL;DR
利用Transformer的Attention机制融合时空特征信息,在nuScenes测试集上达到SOTA精度,同时在速度估计以及可见度低路况也有明显精度提升。
Method
BEV Queries
BEV是一个可学参数的Tensor,Shape为(W, H, C),其中W, H即为BEV平面的定义(单位是m,以车身为中心点),每个grid中有一个channel为C的可学向量。
SCA(spatial cross attention)
如下公式所示,BEV平面上每个cell可以沿着高度方向lift出个3D refer points,就是将BEV下P点的第j个高度上投影至在第i个view的2D点坐标,再使用该2D点坐标提取图像特征信息并与BEV Query 加权得到此处query出的特征。
Temporal Self-Attention
同上,利用车身motation 6Dof信息将上一帧feature对齐到当前bev空间(与Q同坐标系)得到,使用与预测特征偏移,根据如下TSA公式计算attention特征。由于这种方法仅融合上一帧时序特征,计算量更小。
Q: 后续BEV上的特征是否还需要splat成为2D?
A: 根据公式中的推测特征应该会沿着垂直方向求和,最终得到2D BEV平面上的特征。
Experiment
看实验结果TSA的作用很明显。
总结与发散
在BEV栅格中放Transformer的Query,利用几何关系去2D图像上Query对应特征,再填满BEV删格,整个过程更加E2E以及Transformer化。
相关链接
Code: https://github.com/zhiqi-li/BEVFormer
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律