转载&笔记:从深度学习这10年讲到L4自动驾驶独角兽为何全寄
不是本人,觉得是一个很直白且锐气的分享,听到了很多不一样的东西,听完整个人都爽了。
一句话说寄:
在planning上面临重大问题
自动驾驶的两个赛道:
- robotaxi:替代网约车司机(城市环境为主,复杂多变,极难处理)。
- robotruck:替代卡车司机(高速路环境为主,相对好处理,但也有高风险的corner case比如入匝道,稳定性不能达到99.99%的话,就会赔钱多过赚钱直至破产;另外,一些国家政策上的限制也直接导致业务无法开展,初创公司是很难打通政府渠道的;再就是,必要的硬件革新无法与现有卡车兼容,不如直接造新车,可能触碰利益既得者,导致自身出局)。
自动驾驶三个模块:
- perception 感知环境
- behaviour perception 感知周围车辆/人的行为
- planning 路径规划
锐评:懂planning的人都知道这三个模块可以统一到一个框架,这么划分可能是产业界的需要。
深度学习这十年:
2012:AlexNet在imageNet竞赛中薄纱老机器学习方法(如SVM),computer vision迎来重大突破
2014:生成对抗网络GAN提出。
2015-16:CV快速发展:masked RCNN,fast RCNN,camera-based的3d perception和3d bounding box,lidar-based method等等。此时的perception已经很reliable了。然后就是AlphaGo狗哥震惊世界。CV+RL让人们都认为自动驾驶的前途无限光明。各路大神开公司:2simple,naive tech,小马智行,momenta等,投资圈也投疯了。
201617年waymo估值一度达到2000亿美金,但2018年直接跌到300亿。 一个风声是,18年他们就发现planning这件事不是轻易能做出来的了,至少靠rule是不行的。当时百度开放了阿波罗,大家一看全是ifelse都不想参与了。rule-based是绝对做不到L4的。waymo不得不设立研究部门waymo research不做业务做论文,也能看得出来基础研究的严重缺失,直接给商业化判了死刑。
waymo research在2019-2022发表了大量prediction的论文,分享者认为这些都是没有未来的工作,是个把斧头弄成双头斧的研究,枪炮出来立马变废纸,三五年后可能就被DRL完全取代。
1617年,multi agent RL发迹,有个xx公司专门做自动驾驶领域的multi agent RL,后面被waymo收购了,创始人在waymo做researcher。但其实multi agent非常难用,更多的是游戏(星际,moba,逆水寒npc系统),但却是工业界为数不多落地了,要么就是解决control和optimize都不好使的超难问题(可控核聚变中的电磁控制)。
2020:超大模型GPT-3,groudbreaking work,革命NLP,一个模型解决众多学术界疑难杂症。看似没有logic reasoning的模块却能解决一些human level reasoning task。
感叹:这是人类能做出来的东西吗?千亿参数需要分布在巨多gpu上,光是搭建分布式训练系统就巨废工程师,train一次的费用更是百万到千万刀级别的。training本身也是深渊巨坑,同样的random seed却有时出现梯度爆炸:宇宙射线造成电子跃迁,导致浮点数出差错,然后train出错??这种硬件的事情不知道要烧多少钱才能试出来啊。
GPT-3解决language-language task,随后dalle基于GPT-3做了NLP CV的co training,使之能完成language-image task。另一个是stable diffusion,diffusion model19年提出,成如今投资宠儿,AI generate content将加入文创工作流。
呼之欲出的结论:10年来工业界(Google算学术界)没有任何重大成果的产出,所谓风口只是拿来主义时机成熟。
展望:
pure camera based才是未来,lidar的研究更是寄中寄。