8 自动驾驶 - 随笔分类 - fariver

[Paper Reading] CAPE: Camera View Position Embedding for Multi-View 3D Object Detection

摘要：目录名称TL;DRMethodKey Position Embedding ConstructionQuery Position Embedding ConstructionKey/Query Position Embedding两者结合关系参考下图temporal modelingExperime 阅读全文

posted @ 2024-09-24 18:45 fariver 阅读(123) 评论(0) 推荐(0)

[Paper Reading] DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

摘要：DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION link 时间：2021(ICLR) 机构：Sensetime & USTC & CUHK TL;DR 参考2D Deformable Conv，通过在R 阅读全文

posted @ 2024-08-07 17:31 fariver 阅读(122) 评论(0) 推荐(0)

[Paper Reading] DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

摘要：DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models DriveVLM 时间：24.02 机构：Tsinghua University && Li Auto TL;DR 当前自动驾驶落地的主要阅读全文

posted @ 2024-08-07 16:45 fariver 阅读(378) 评论(0) 推荐(0)

[Paper Reading] GAIA-1: A Generative World Model for Autonomous Driving

摘要：GAIA-1: A Generative World Model for Autonomous Driving GAIA-1 时间：23.09 机构：Wayve TL;DR 本文介绍一种生成世界模型，该模型利用视频、文本和动作输入来生成逼真的驾驶场景，同时提供对自身车辆行为和场景特征的细粒度控制。阅读全文

posted @ 2024-07-03 21:19 fariver 阅读(249) 评论(0) 推荐(0)

[Paper Reading] Tesla AI Day 2022 for FSD Beta

摘要：link Framework Occupancy 模型结构比较像ICCV 2023的OccNet的做法，不过还会额外预测Suface以及NeRF state，预测可行驶区别suface的好处是可以辅助Planning&Control给出更加准确的运动速度等信息(比如，上下坡可根据suface坡度做更阅读全文

posted @ 2024-06-11 23:49 fariver 阅读(109) 评论(0) 推荐(0)

[Paper Reading] UniAD: Planning-oriented Autonomous Driving

摘要：Planning-oriented Autonomous Driving link 时间：23.03 机构：Shanghai AI Laboratory && SenseTime TL;DR 将感知、预测以及规划模块整合成为一个E2E的网络结构。该工作是CVPR2023的Best Paper 阅读全文

posted @ 2024-06-05 20:20 fariver 阅读(632) 评论(0) 推荐(0)

[Paper Reading] MOTR: End-to-End Multiple-Object Tracking with Transformer

摘要：MOTR: End-to-End Multiple-Object Tracking with Transformer link 时间：22.07 机构：Megvii TL;DR 传统MOT通过motion与appearance来建模，有复杂的后处理难以E2E。本文基于DETR设计出MOTR算法，通过阅读全文

posted @ 2024-05-30 23:12 fariver 阅读(669) 评论(0) 推荐(0)

[Paper Reading] FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

摘要：FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin link 时间：23.11 机构：houmo.ai 后摩智能 TL;DR 当时比较流行的OCC方案内存与计算复杂度较高，本文提出阅读全文

posted @ 2024-05-29 20:52 fariver 阅读(249) 评论(0) 推荐(0)

[Paper Reading] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

摘要：BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers link 时间：22.07 机构：Nanjing University && Sha 阅读全文

posted @ 2024-05-20 21:44 fariver 阅读(304) 评论(0) 推荐(0)

[Paper Reading] PETR: Position Embedding Transformation for Multi-View 3D Object Detection

摘要：PETR: Position Embedding Transformation for Multi-View 3D Object Detection PETR: Position Embedding Transformation for Multi-View 3D Object Detection 阅读全文

posted @ 2024-05-15 16:58 fariver 阅读(430) 评论(0) 推荐(0)

[Paper Reading] BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

摘要：BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View BEVDet 时间：21/12 机构：PhiGo(鉴智机器人) TL;DR 一种BEV空间做detection的方法，构建了新颖的数据增强方法以及更新阅读全文

posted @ 2024-05-14 14:12 fariver 阅读(247) 评论(0) 推荐(0)

[Paper Reading] OFT Orthographic Feature Transform for Monocular 3D Object Detection

摘要：OFT Orthographic Feature Transform for Monocular 3D Object Detection OFT Orthographic Feature Transform for Monocular 3D Object Detection 时间：18.11 机构：阅读全文

posted @ 2024-05-07 21:22 fariver 阅读(196) 评论(0) 推荐(0)

[Paper Reading] LSS: Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D

摘要：名称 Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D 时间：20.08 机构：NVIDIA TL;DR 后融合方法将每一目感知结果通过相机参数转换到BEV空阅读全文

posted @ 2024-05-06 22:58 fariver 阅读(303) 评论(0) 推荐(0)

[Paper Reading] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

摘要：名称 DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 时间：21.10 机构：mit/CMU/Stanford TL;DR 一种利用Transformer做E2E的3D目标检测方法，在nuScenes自动阅读全文

posted @ 2024-04-28 14:09 fariver 阅读(152) 评论(0) 推荐(0)

[基础] DETR：End-to-End Object Detection with Transformers

摘要：名称 End-to-End Object Detection with Transformers 时间：20.05 机构：Facebook AI TL;DR 文章提出一种称为DETR(Detection Transformer)的基于Transformer的检测器，相比于传统检测器不需要NMS以及a 阅读全文

posted @ 2024-04-22 22:01 fariver 阅读(214) 评论(0) 推荐(0)

fariver

随笔分类 - 8 自动驾驶

公告