城市NOA加速落地,BEV+Transformer引领自动驾驶感知新范式

15城,45城,50城,100城……

这一连串数字的背后,是城市NOA赛道的骤然升温。

随着L2级辅助驾驶进入深水区,自动驾驶企业竞争的主战场也从封闭高速公路,切换到了城市场景。

以华为、理想、毫末、小鹏、蔚来等为代表的自动驾驶企业纷纷推出激进的开城策略,城市NOA赛道一时间硝烟四起,逐鹿大战一触即发。

 

一、城市NOA大战全面打响

NOA,英文全称Navigate On Autopilot,字面翻译为导航辅助驾驶,在自动驾驶场景下多被一些企业称之为“高阶智能驾驶辅助”。

不同企业对此称谓也有一些出入,比如华为称之为NCA,毫末智行称之为NOH、小鹏称之为NGP、蔚来称之为NOP、理想和特斯拉则都是直接命名为NOA。

依据我国推出的《汽车驾驶自动化分级》标准,自动驾驶技术被分为六个等级,以NOA为代表的导航辅助驾驶大致处于L2与L3级之间。

NOA的主要功能是可以在特定道路范围内,实现点到点的“导航辅助驾驶”。具体应用场景为用户设定好目的地,车辆即可在功能覆盖的范围内,无需人为接管即可全程辅助驾驶到达终点。

相较于高速NOA,城市NOA应用场景更加复杂,交通参与者更多,落地难度也要远远高于前者。但城市作为自动驾驶主要应用场景,将智能辅助驾驶功能从高速路段扩展至城市公路,是高阶智能辅助驾驶走向无人驾驶的关键一步,城市NOA也被认为是通往自动驾驶的最后一块拼图。

过往,受限于硬件水平以及高精地图成本、监管等问题,城市NOA多处于探索阶段,进展缓慢。

而随着计算平台算力的快速提升以及传感器感知精度的迅速提高,城市NOA有了较为完备的落地支持条件,尤其在“重感知、轻地图”成为当前主流技术路径的背景下,城市NOA赛道骤然升温,2023年也成为了城市NOA发展的元年。

在这场大战中,率先出招的是小鹏汽车。今年3月份,小鹏全量推送XNGP(全场景辅助驾驶)4.2.0版本,旗下G9及P7i Max版车型将在上海、深圳、广州,P5系列将在上海高精地图覆盖区域开放点到点城市NGP(智能导航辅助驾驶);而在高精地图无法覆盖的区域,将开放具备跨线绕行,识别红绿灯并直行通过路口能力的LCC增强版。

毫末智行紧随其后。在AI DAY上,毫末智行宣布将于今年三季度实现城市NOH功能,并计划至2024年开拓100个城市,目前城市NOH已经在保定和北京进行大规模测试中。

4月份,华为正式发布了ADS2.0版本。相较于第一代ADS系统,2.0版本中增加了道路拓扑推理网络(可以在BEV感知中推理构建实时高精地图),从而摆脱对真实高精地图的依赖。同时华为还宣布城市NCA已经在深圳、上海、广州等地区落地。预估三季度将实现在15个城市无图落地,四季度将新增30个无图城市落地。

6月份,理想汽车向早鸟用户推送了首个不依赖高精地图的城市NOA。9月份,理想汽车面向早鸟用户开始推送通勤NOA的内测版本,通勤NOA将首先覆盖包括北上广深在内的10座城市。而到本年底,理想汽车计划进一步扩展至全国100城,并到明年二季度实现通勤NOA对用户的全量覆盖。

除上述企业外,蔚来、百度、智己、比亚迪等也纷纷推出了自己的城市NOA发展路线图,城市NOA赛道进入前所未有的逐鹿时代。

 

二、高精地图不香了

相关统计数据显示,在自动驾驶应用场景中,城区驾驶场景占据90%的行驶时间,驾驶里程占比高达90%。

相较于其他场景,城市道路场景更加复杂,包括行人、电动车、动物、机动车、非机动车等各类复杂对象。高速NOA常见的功能通常包括自动变道、超车提醒、车道保持等,而城区NOA则更加符合日常生活需求,除了基本的导航功能外,还包括自动泊车、定点停车、智能跟车等功能,城区NOA难度远高于高速等相对封闭的其他场景。

作为自动驾驶的核心场景,尽管城区NOA实现难度较高,但实现完全自动驾驶就需要在城区场景实现突破,因此城区NOA能力也就成为车企现阶段的核心竞争点之一。

目前,已落地的城市NOA中,除特斯拉外,国内企业的方案基本均高度依赖高精地图。与普通导航地图不同,高精地图定位精度可以达到厘米级别,并且可以提供更多道路信息,如道路形状、道路标记、交通标志和障碍物等信息,是实现自动驾驶的绝佳助力。

但高精地图也并非十全十美。

首先,高精地图制作成本较高。由于高精地图内容极为精细,导致更新速度较为缓慢,但自动驾驶需要地图至少达到日更以上水平,这就带来了极大的适配以及成本问题。

此外,政策制约也是限制高精地图发展的重要原因。目前,国内取得甲级测绘资质的企业仅十几家,高精地图由于包含内容过于详细,出于国家安全角度考量,高精地图在采集制作与应用中限制也颇多。

因此,由高精地图转向轻地图,甚至无图逐渐成为现阶段各厂商的共识,城市NOA技术方式走向趋同。

以华为为例,2021年上海车展前夕,依托高精地图的极狐阿尔法S华为HI版本自动驾驶掀起一波热度。而到了今年的上海车展,华为进行了一次重大的技术方向调整:从融合路线转为重感知路线,逐渐摆脱对高精地图的依赖,实现“有图无图”都能开。

而上文中提到的各家企业也与华为采用了相似的技术路线。比如小鹏XNGP采用的即是以视觉为主,雷达为辅,重感知、轻地图的技术路线;理想AD Max3.0也摒弃了高精地图,再加上国内最早提出“重感知”的毫末智行,去高精地图重感知成为当下这波城市NOA中的主流技术路线。

 

三、BEV+Transformer

高精地图除成本、政策等因素导致“不香了”以外,各厂商从融合路线转为重感知路线,还有一个重要原因是BEV+Transformer方案的流行。包括小鹏、华为、理想、毫末等城市NOA方案都提到了不依赖高精地图,而他们所采用的技术就是BEV+Transformer方案。

BEV(Bird‘s-eye-view),即鸟瞰图视角,也被称为上帝视角,是自动驾驶跨摄像头和多模态融合背景下的一种视角表达形式。通过将传统自动驾驶2D图像视角(Image View)加测距的感知方式,转换为在鸟瞰图视角下的3D感知。

BEV的优势有以下几点:

首先是BEV不会出现图像视角下的尺度和遮挡等问题,呈现对象内容更多;其次,将不同视角在BEV下进行统一表达,可以极大方便后续规划和控制任务;另外,BEV感知系统中,摄像头、激光雷达、毫米波雷达感知均在BEV空间中进行,融合过程提前。BEV还可以引入过去时间片段中的数据,实现时序融合;最后,BEV空间内,感知和预测都在同一个空间进行,可以通过神经网络做到端到端的优化,输出“并行”结果,而整个感知网络可以以数据驱动方式来自学习,实现快速迭代。

Transformer则由Google于2017年提出。与传统神经网络RNN和CNN不同,Transformer并不按照串行顺序来处理数据,而是通过注意力机制,去挖掘不同元素的联系及相关性,这种机制将使Transformer适应不同长度与结构的输入。自动驾驶的本质是通过训练使车辆具备人类的驾驶能力,用神经网络模型代替基于规则的算法,可以加速智能驾驶能力的提升。

Transformer模型于2020年左右被引入到CV领域和智能驾驶领域。通过Attention机制,兼备CNN易于并行化的优势和RNN小模型可以捕捉长序列内依赖关系的优势,有效提升感知模块特征提取等环节的效果,自动驾驶感知技术路径有了新的路线。

率先将BEV与Transformer结合在一起的是特斯拉。2021年,特斯拉在第一届AI DAY上推出了基于Transformer的BEV。

在此之前,常见的感知算法主要以卷积神经网络为主,其工作原理是对图像进行一帧一帧的分类、识别与追踪,并将感知结果交由决策、规划与控制等模块。

其缺陷主要在于空间为二维,缺少“距离/深度”维度,且时间是断裂的(感知系统缺乏上下文记忆),只能胜任简单的自动驾驶场景。

而特斯拉推出的基于BEV+Transformer的自动驾驶感知路线,可将2D图像转化为BEV鸟瞰图视角下的3D图像,并基于更庞大、更复杂、参数更多的感知算法模块,利用Transformer的注意力机制,将各个传感器统一到同一个连续的四维(三维空间+一维时间)时空中。

BEV可以实现将360度环视的时间、空间融合,Transformer架构可以输出静态、动态信息,以及端到端的预测能力。更具象化描述来说就是将摄像头、毫米波雷达、激光雷达等感知元件采集到的实时数据通过Transformer模型转换成3D图景,最后形成车辆周围的鸟瞰图,实现对车辆周边环境的精准感知,甚至可以实时形成一张车辆周围的实时地图。

相较于过往2D+CNN的技术路径,BEV+Transformer的优势有以下几点:

首先可以提供更全面的环境感知能力,复杂道路状况处理能力更加优秀,可以有效识别及应对绝大部分边缘场景;

其次是可以更好的应对恶劣天气,通过融合不同角度的图像信息,从而提高系统对环境的感知水平;

此外还可以提升对异常行为的预测准确性,迅速评估当前道路状况,让自动驾驶系统在复杂场景中做出更为合理的决策;

最后,全局视角下,BEV+Transformer还可以在狭窄或遮挡的道路,以及并车和交通合流等场景下,让车辆行驶的更加安全。

我们可以看到,Transformer+BEV技术在应对Corner Case时更具优势,而这也是城市NOA场景下亟待解决的主要问题,因此当下各厂商技术路线逐渐趋同也就理所当然。

 

四、挑战依然存在

尽管BEV+Transformer相较于过往技术路线优势众多,但也并非十全十美,仍存在诸多挑战:

首先,为了确保视觉感知重叠,汽车感知硬件中摄像头数量会有所提升,硬件成本增加;

其次,Transformer模型体量庞大,运算会消耗大量存储与带宽空间。同时对芯片性能要求严苛,除需进行算子适配以及底层软件优化外,SOC层面还需对缓存与带宽进行提升;

最后,也是最为重要的是Transformer训练与迭代需要海量数据做支撑,催生出海量的数据采集、标注需求。

从高速场景拓展到城市场景,车辆所遇到的长尾问题( Corner case)大幅增加。高速场景相对封闭,交通参与者相对简单不涉及行人,驾驶状态可预测性更强,对数据规模与多样性要求较低。

而城市场景路况则较为复杂,交通参与者众多(行人、各类低速车辆),场景异质性强,驾驶状态很难进行预测。因此,城市领航辅助驾驶对自动驾驶模型的泛化能力提出了更高的要求。

Transformer大模型量变到引起质变需要数亿公里标注数据的投喂,并覆盖不断出现的Corner Case,才可推动自动驾驶感知算法从轻量的CNN二维感知到基于Transformer四维感知的升维,这对数据标注量产规模提出了更高的要求,数据闭环能力取代算法范式,成为决定商业量产从1到N的胜负关键。

 

五、如何突破数据挑战

BEV+Transformer技术路径所带来的数据挑战是多维度的,除上文所述的数据处理规模极为庞大以外,还体现在以下几个方面:

1)数据生产成本。海量数据的处理必然带来标注成本的飙升,数据闭环的每一步推进都是成本与效率的博弈。

2)标注场景难度。BEV+Transformer技术路径下,3D、4D标注场景占比增多,对数据标注平台的场景覆盖度以及产品技术壁垒提出了更高的要求。

3)数据量产规模。大模型的训练与迭代需要海量标注数据的投喂,提升AI自动标注比例并降低对人力的依赖,成为提升数据量产能力,助推数据飞轮的关键。

作为行业领先的AI基础架构与数据智能平台服务商,也是国内最早专注自动驾驶数据标注领域的企业,曼孚科技以产品技术为核心竞争力,针对自动驾驶数据场景出现的上述问题,推出了以DaaS数据标注平台、数据管理平台、AutoLabeling平台、AutoML平台以及大模型标注平台为核心的自动驾驶AI数据标注解决方案。

场景覆盖度方面,MindFlow SEED数据标注平台支持自动驾驶等场景下2D、3D、4D全类别标注,如2/3D融合、3D点云分割、点云时序叠帧、BEV、4D点云车道线、4D点云分割等,产品功能体系完整,全面覆盖自动驾驶各细分标注场景。

针对4D点云标注场景下存在的大规模点云适配渲染与同时在线人数等平台性能问题,曼孚科技自研地图分片、LOD大规模点云渲染、基于虚拟视图的上万节点渲染等技术,4D点云车道线与4D点云分割场景在实现低配置单帧数亿级点云平稳运行的同时,还可实现十万级以上标注员同时在线稳定流畅标注。

而数据量产规模以及生产成本方面,为解决大规模数据量产过程中效率与成本的矛盾,曼孚科技在数据生产的多个环节引入AI与RPA技术,大幅降低生产成本和对人力的依赖。

以AI能力为例,曼孚科技已完成自动驾驶数据标注视觉大模型研发。通过引入驾驶数据建立RLHF,并基于深度学习与计算机视觉构建大模型,可实现复杂驾驶场景下,数据的高效处理与全自动化标注。

目前已商用的AI算法标注模型包括基于SAM分割大模型的AI智能分割、静态道路自适应分割、动态障碍物AI预处理、AI交互式标注等数十种,典型自动驾驶数据标注场景平均效率可提升4-5倍以上,部分场景则可提升10-20倍以上。

除此之外,针对Transformer模型所带来的大规模数据存储问题,曼孚科技还推出了Granary数据管理平台,为自动驾驶数据提供存储、处理、导入导出等功能。通过SDK打通数据采集平台、数据标注平台、模型训练平台与生产运营系统等外部平台,引入私有化AI大模型,通过在本地环境中处理数据,提供完全的数据和模型控制权,以及模型优化和定制的功能,从而最大程度保证数据安全性与隐私性,提高自动驾驶数据使用与管理效率。

曼孚科技自动驾驶AI数据标注解决方案,全面覆盖自动驾驶数据管理、处理与部署应用等各个环节,通过引入AI大模型、RPA等自动化技术,实现数据标注的低成本、规模化量产,为自动驾驶感知模型的训练与调优提供充足燃料,满足自动驾驶城市NOA场景下对于大规模数据积累以及数据闭环能力的迫切需求。

NOA从高速场景快速发展到城市场景,意味着自动驾驶从辅助驾驶向全自动驾驶迈出了关键一步。而BEV+Transformer全新技术路径下,数据闭环能力重要性凸显。数据闭环能力的建立,不仅依赖于数据规模,还依赖于数据的筛选、回传、标注、训练、验证与再部署,数据之于自动驾驶的价值再被印证的同时,也将推动自动驾驶迈向更为高阶的智能化时代。

 

posted @ 2023-11-10 19:06  曼孚科技  阅读(122)  评论(0编辑  收藏  举报