3D CV 学习笔记
先从目标检测的一篇 survey 开始挖:
"3D Object Detection from Images for Autonomous Driving: A Survey"
数据集:
KITTI
有图像数据和雷达数据,有 3D 目标检测的 benchmark。
可以看看这篇博客对 KITTI 的介绍。
https://blog.csdn.net/m0_46556474/article/details/130944612
判断一个框是否匹配用 IoU(交除以并)> K(0.7 in KITTI) 来判断。
T, F 表示本来是对的or错的,P, N 表示判断为对的或错的
\(precision = \frac{TP}{TP+FP}\)
\(recall = \frac{TP}{TP+FN}\)
依次求每个样本,按置信度排序,得到累计的 precision 和 recall,由此得 P-R 曲线。
KITTI 中,用 AP|R40,详见:https://zhuanlan.zhihu.com/p/594184522
遍历 \(r \in \{1/40,2/40,...,1\}\),取 recall \(\ge r\) 的点的 precision 的最大值,对该值求平均,即 AP|R40.
该方法为什么好笔者不想去探讨。
nuScenes
LiDAR+Radar+相机
好像可以做 occupancy,之后用的时候再详细了解下。
framework
result-lifting
先用 2D 特征估计 2D 位置,朝向、维度,用这些得到 3D 的结果。
转载注意标注出处:
转自Cold_Chair的博客+原博客地址