摘要:
名称 Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation 时间:CVPR2024 机构:The University of Tokyo TL;DR 多目3D hand pose estimation数据比较难标注 阅读全文
摘要:
Multiple View Geometry Transformers for 3D Human Pose Estimation link 时间:CVPR2024 机构:University of Toronto && Southeast University && Microsoft Resear 阅读全文
摘要:
DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION link 时间:2021(ICLR) 机构:Sensetime & USTC & CUHK TL;DR 参考2D Deformable Conv,通过在R 阅读全文
摘要:
DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models DriveVLM 时间:24.02 机构:Tsinghua University && Li Auto TL;DR 当前自动驾驶落地的主要 阅读全文
摘要:
背景 最近在准备了一次比较重要的汇报,发现写文档与准备汇报整个过程非常痛苦,进展也很缓慢,虽然最终也憋出了东西,但这种低效率让我感觉自己欠缺这方面的方法论。实际上类似的事情还比较常见,例如,向高层汇报、述职、商业BP、面试等场景都需要这种技能,于是决定花些时间总结一下这方面的经验。 材料准备 获取好 阅读全文
摘要:
GAIA-1: A Generative World Model for Autonomous Driving GAIA-1 时间:23.09 机构:Wayve TL;DR 本文介绍一种生成世界模型,该模型利用视频、文本和动作输入来生成逼真的驾驶场景,同时提供对自身车辆行为和场景特征的细粒度控制。 阅读全文
摘要:
link Framework Occupancy 模型结构比较像ICCV 2023的OccNet的做法,不过还会额外预测Suface以及NeRF state,预测可行驶区别suface的好处是可以辅助Planning&Control给出更加准确的运动速度等信息(比如,上下坡可根据suface坡度做更 阅读全文
摘要:
Planning-oriented Autonomous Driving link 时间:23.03 机构:Shanghai AI Laboratory && SenseTime TL;DR 将 感知、预测 以及 规划 模块整合成为一个E2E的网络结构。该工作是CVPR2023的Best Paper 阅读全文
摘要:
MOTR: End-to-End Multiple-Object Tracking with Transformer link 时间:22.07 机构:Megvii TL;DR 传统MOT通过motion与appearance来建模,有复杂的后处理难以E2E。本文基于DETR设计出MOTR算法,通过 阅读全文
摘要:
FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin link 时间:23.11 机构:houmo.ai 后摩智能 TL;DR 当时比较流行的OCC方案内存与计算复杂度较高,本文提出 阅读全文