端到端-架构收集整理

端到端--数据

 数据具有代表性-多样性-有价值的数据--海量
基于数据驱动
 什么数据-哪里来的数据	-clip数据
  数据采集-- 采集策略和成本-- 采集数据的有效性和数据成本问题-采集传输存储成本和技术-合规 来源众多、结构各异
  数据处理-- 采集数据的数据质量和数据分布,数据管理和数据筛选提取 筛选数据、处理数据 
  数据周期管理 -- 数据质量管理体系  数据冲突  数据质量评价体系  数据质量监控和告警体系
  数据应用--数据一致性,数据泛化问题等--数据应用方式
  数据资源化-要素化--数据合规和数据集价值,数据规整和数据格式
  数据安全--防范和防御,进攻和理解
技术类问题-流程类问题--管理类问题-认知迭代类

基础是算力

模型所需要的算力-东数西算

算法

  算法横空出世还是万丈高楼平地起	
  组织模型训练

技术和组织架构

 人才和组织架构--招揽人才和组织好人才--组织架构的调整和适配
    开发范式:  功能模块制  项目制	
工程师团队反复试错、验证-迭代		

自动驾驶行业

说了什么和没说什么
基本上绝大多数方案都默认先会把控制排除出去,也就是说只做从感知到规划这中间的端到端。
    主要是因为控制这东西每个车不一样
感知-->规划 -->控制
市场-价格-技术
整车方面:
    一汽  东风  长安
   小米   蔚来  理想 小鹏
   上汽   广汽
   比亚迪 奇瑞 长城 吉利
   特斯拉 大众 奔驰、奥迪
空间算法	   
    地平线 黑芝麻 华为
    华为   大疆   百度 
    英伟达 高通   TI

案例

地平线的思路是做一个统一的端到端自动驾驶系统UniAD	
    地平线的思路-- 
        UniAD的架构来看。
        输入:多摄像头图像序列
           1. 特征提取:使用特征提取器提取图像特征
           2. BEV编码:将图像特征转换为统一鸟瞰图(BEV)特征
           3. 轨迹跟踪模块 TrackFormer :使用检测查询和跟踪查询从BEV特征中检测和跟踪目标
           4. 地图分割模块 MapFormer   :使用地图查询从BEV特征中分割地图元素
           5. 运动预测模块 MotionFormer:结合轨迹查询和地图查询,预测多模态运动轨迹
           6. 占用预测模块 OccFormer   :使用BEV特征预测多步占用网格图
           7. 规划模块     Planner     :结合ego vehicle query和占用预测结果,生成安全规划
    	
    传感器提取了BEV特征之后,数据进入了 TrackFormer 和 MapFomer
    TrackFormer和MapFormer一个负责追踪多运动目标,另一个负责理解道路,结合起来就是MotionFormer。
华为: 理解每一个追踪物体的时空关系
    0.传感器
     0.1. GOD通用障碍物识别网络 --障碍物检测网络变成了整个感知栈  
	      目标障碍物,道路结构,以及场景理解
		    目标障碍物是不是可以对应到 TrackFormer ?
		    道路结构可以对应到 MapFormer ?
			场景理解可以对应到 OccFormer
    0.2. PCR(道路拓扑推理)网络
    0.3. PDP(预测决策规控)网络:
	0.4 本能安全网络--?
	     增加干预层,相当于人工规则和模型共同使用,用于解决一些监管的问题
    1.运动控制
   多模态时空融合的大模型,都四舍五入叫BEV了。而华为的GOD,在他出现之前都统称为OCC  
      一个BEV视角来进行规划,理解现实世界的时空,
	   是因为我们还没办法完好地理解多传感器下的时空,就必须在BEV里面统一的时空下进行理解
	   但现在可以通过独立负责具体任务的模块来实现  
       类似BEV的视角去理解时空的方式还是存在的,但是被另一套工作流替代
  百度
    端到端大模型Apollo ADFM(Autonomous Driving Foundation Model)
  
 小鹏汽车宣布端到端大模型上车,
       神经网络 XNet (侧重于感知和语义)
       规控大模型 XPlanner 
       和大语言模型 XBrain (侧重于整个大场景的认知)三部分组成

 理想汽车- DriveVLM
       架构: 端到端模型、VLM视觉语言模型、世界模型三部分共同构成
	   
	系统1 由端到端模型  实现快速响应,端到端模型接收传感器输入,并直接输出行驶轨迹用于控制车辆   
    系统2 由VLM视觉语言模型实 现,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统1		   
	双系统构成的自动驾驶能力还将在云端利用世界模型进行训练和验证 

    Chain-of-Though (CoT) 思维链(CoT)过程:场景描述、场景分析和分层规划	  
     pipeline --感知-预测-规划 	

      输入包括来自周围摄像机的多视角视频V,输出可选的3D感知结果:
           场景描述E:天气状况Eweather、时间Etime、路况road、车道状况lane
           场景分析S:包括对象级分析和场景级总结S
           Meta Actions A:代表任务级别机动的一系列动作 动作分为17类,包括但不限于加速、减速、左转、变道、微小的位置调整和等待
           决策描述D:驾驶决策的详细描述  应该采取的更细粒度的驾驶策略
           轨迹航路点W:概述ego车辆规划轨迹的航路点

参考

网络
posted @ 2024-08-20 10:08  辰令  阅读(4)  评论(0编辑  收藏  举报