随笔分类 - 自动驾驶
摘要:目录名称TL;DRMethodKey Position Embedding ConstructionQuery Position Embedding ConstructionKey/Query Position Embedding两者结合关系参考下图temporal modelingExperime
阅读全文
摘要:DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION link 时间:2021(ICLR) 机构:Sensetime & USTC & CUHK TL;DR 参考2D Deformable Conv,通过在R
阅读全文
摘要:DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models DriveVLM 时间:24.02 机构:Tsinghua University && Li Auto TL;DR 当前自动驾驶落地的主要
阅读全文
摘要:GAIA-1: A Generative World Model for Autonomous Driving GAIA-1 时间:23.09 机构:Wayve TL;DR 本文介绍一种生成世界模型,该模型利用视频、文本和动作输入来生成逼真的驾驶场景,同时提供对自身车辆行为和场景特征的细粒度控制。
阅读全文
摘要:link Framework Occupancy 模型结构比较像ICCV 2023的OccNet的做法,不过还会额外预测Suface以及NeRF state,预测可行驶区别suface的好处是可以辅助Planning&Control给出更加准确的运动速度等信息(比如,上下坡可根据suface坡度做更
阅读全文
摘要:Planning-oriented Autonomous Driving link 时间:23.03 机构:Shanghai AI Laboratory && SenseTime TL;DR 将 感知、预测 以及 规划 模块整合成为一个E2E的网络结构。该工作是CVPR2023的Best Paper
阅读全文
摘要:MOTR: End-to-End Multiple-Object Tracking with Transformer link 时间:22.07 机构:Megvii TL;DR 传统MOT通过motion与appearance来建模,有复杂的后处理难以E2E。本文基于DETR设计出MOTR算法,通过
阅读全文
摘要:FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin link 时间:23.11 机构:houmo.ai 后摩智能 TL;DR 当时比较流行的OCC方案内存与计算复杂度较高,本文提出
阅读全文
摘要:BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers link 时间:22.07 机构:Nanjing University && Sha
阅读全文
摘要:PETR: Position Embedding Transformation for Multi-View 3D Object Detection PETR: Position Embedding Transformation for Multi-View 3D Object Detection
阅读全文
摘要:BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View BEVDet 时间:21/12 机构:PhiGo(鉴智机器人) TL;DR 一种BEV空间做detection的方法,构建了新颖的数据增强方法以及更新
阅读全文
摘要:OFT Orthographic Feature Transform for Monocular 3D Object Detection OFT Orthographic Feature Transform for Monocular 3D Object Detection 时间:18.11 机构:
阅读全文
摘要:名称 Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D 时间:20.08 机构:NVIDIA TL;DR 后融合方法将每一目感知结果通过相机参数转换到BEV空
阅读全文
摘要:名称 DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 时间:21.10 机构:mit/CMU/Stanford TL;DR 一种利用Transformer做E2E的3D目标检测方法,在nuScenes自动
阅读全文
摘要:名称 End-to-End Object Detection with Transformers 时间:20.05 机构:Facebook AI TL;DR 文章提出一种称为DETR(Detection Transformer)的基于Transformer的检测器,相比于传统检测器不需要NMS以及a
阅读全文