3D CV 学习笔记

先从目标检测的一篇 survey 开始挖:
"3D Object Detection from Images for Autonomous Driving: A Survey"

数据集:

KITTI

有图像数据和雷达数据,有 3D 目标检测的 benchmark。
可以看看这篇博客对 KITTI 的介绍。
https://blog.csdn.net/m0_46556474/article/details/130944612

判断一个框是否匹配用 IoU(交除以并)> K(0.7 in KITTI) 来判断。

T, F 表示本来是对的or错的,P, N 表示判断为对的或错的
\(precision = \frac{TP}{TP+FP}\)
\(recall = \frac{TP}{TP+FN}\)

依次求每个样本,按置信度排序,得到累计的 precision 和 recall,由此得 P-R 曲线。

KITTI 中,用 AP|R40,详见:https://zhuanlan.zhihu.com/p/594184522

遍历 \(r \in \{1/40,2/40,...,1\}\),取 recall \(\ge r\) 的点的 precision 的最大值,对该值求平均,即 AP|R40.

该方法为什么好笔者不想去探讨。

nuScenes

LiDAR+Radar+相机

好像可以做 occupancy,之后用的时候再详细了解下。

framework

result-lifting

先用 2D 特征估计 2D 位置,朝向、维度,用这些得到 3D 的结果。

posted @ 2024-01-23 21:38  Cold_Chair  阅读(9)  评论(0编辑  收藏  举报