ADAS-音视频-芯片分析
ADAS-音视频-芯片分析
参考文献链接
https://mp.weixin.qq.com/s/zaMrTd_v9V0llYw17-VFdw
https://mp.weixin.qq.com/s/hSgbFMkMyshkoh8as12O4g
https://mp.weixin.qq.com/s/0dkN6ydxUG8aPyuNVBZFGQ
https://mp.weixin.qq.com/s/nXeAsg6EpgXbvwdsEY28yQ
自动驾驶的可行驶区域分割方法
在自动驾驶系统中,可行驶区域分割是一项重要的任务。可行驶区域的提取是ADAS的关键技术,旨在使用传感器感知技术感知驾驶车辆周围的道路环境,识别并分割出当前驾驶场景下可行驶的区域,防止偏离车道或违规驾驶。
可行驶区域分割的精度和鲁棒性直接决定了车辆能否正常行驶。本文将对前沿的可行驶区域分割方法进行总结,其中多项方案已经开源。读者可以针对自身项目需求,设计适合自己的可行驶区域分割方案。
1. BiFPN: 用于道路分割的双向融合网络
标题:BiFNet: Bidirectional Fusion Network for Road Segmentation
作者:Haoran Li, Yaran Chen, Qichao Zhang, Dongbin Zhao
原文链接:https://arxiv.org/abs/2004.08582
摘要:基于多传感器融合的道路分割在智能驾驶系统中起着重要的作用,因为它提供了可驾驶区域。现有的主流融合方法主要是在图像空间域进行特征融合,导致道路的透视压缩,损害了远处道路的性能。
考虑到激光雷达的鸟瞰图仍然是水平面上的空间结构,提出了一种双向融合网络来融合点云图像和鸟瞰图。该网络由两个模块组成:
1)稠密空间变换模块,解决摄像机图像空间和BEV空间的相互转换。
2)基于上下文的特征融合模块,基于场景融合不同传感器的信息。
该方法在KITTI数据集上取得了有竞争力的结果。大多数基于特征融合的道路分割方法都是在相机空间完成特征融合的。根据小孔成像理论,相机在成像过程中对远处物体进行压缩,导致远处物体通常比近处物体占据更少的像素。
显然,透视压缩增加了远处物体分割的难度。由于图像压缩,近的道路可以被很好地分割,而远的道路被粗略地分割。
针对这一问题,作者提出一种融合相机图像和点云BEV的道路分割方法。一方面,点云的BEV保持了道路的分布,具有足够的路段面积信息。另一方面,相机图像具有丰富的纹理和比激光雷达更远的可视距离。大多数方法集中在相机空间的特征融合,使用透视投影,丢失了点云的空间结构。
而作者设计了一个稠密空间转换模块,实现了相机空间和BEV空间之间的特征转换。还提出了一种基于上下文的融合模块,该模块对特征进行适当的组合,并根据上下文自适应地融合变换后的特征。
总之,该项成果有以下贡献:
(1) 设计了一个稠密空间变换,在点云的图像和BEV之间建立稠密映射。这种变换是融合来自不同空间的特征的基础。
(2) 提出了一个基于上下文的融合模块。该模块根据环境背景融合多传感器特征,实现环境的鲁棒表示。
(3) 基于以上模块,构建了双向融合网络(BiFNet),结合相机图像和点云的BEV实现道路分割,并在KITTI道路数据集中取得了有竞争力的结果。
图1 BiFNet网络架构
表1 BiFNet在KITTI上的实验结果
2. 将表面法线信息应用于地面移动机器人的可行驶区域和道路异常检测
标题:Applying Surface Normal Information in Drivable Area and Road Anomaly Detection for Ground Mobile Robots
作者:Hengli Wang, Rui Fan, Yuxiang Sun, Ming Liu
来源:IROS 2020
原文链接:https://arxiv.org/abs/2008.11383
摘要:可行驶区域和道路异常的联合检测是地面移动机器人的关键任务。近年来,已经开发了许多令人印象深刻的语义分割网络,其可用于像素级可驾驶区域和道路异常检测。但是,检测精度仍然需要提高。
因此,我们开发了一个名为法线推理模块(NIM)的新模块,它可以从密集的深度图像中高精度、高效率地生成表面法线信息。我们的NIM可以部署在现有的卷积神经网络(CNN)中,以改善分割性能。
为了评估我们的NIM的有效性和健壮性,我们将它嵌入到12个最先进的CNN中。实验结果表明,我们的NIM可以大大提高细胞神经网络在可行驶区域和道路异常检测方面的性能。此外,我们提出的NIM-RTFNet在KITTI road基准测试中排名第8,并表现出实时推理速度。
这篇文章首先介绍了一种新的模块——法向推理模块(NIM),它可以从稠密的深度图像中高精度、高效率地生成表面法向信息。表面法线信息作为一种不同的数据形式,可以在现有的语义分割网络中使用以提高性能。
此外,为了验证NIM的有效性和鲁棒性,作者使用了GMRP数据集训练12个最先进的CNN(8个单模态CNN和4个数据融合CNN),分别嵌入和不嵌入NIM进行实验。实验结果表明,NIM可以大大提高用于可驾驶区域和道路异常检测任务的CNN。
此外,作者提出的NIM-RTFNet在KITTI road基准测试中排名第82并表现出实时推理速度。
总之,该项成果有以下贡献:
(1) 开发了一个新的NIM模块,并展示了它在提高语义分割性能方面的有效性。
(2) 对不同形式的数据对语义分割网络的影响进行了广泛的研究。
(3) 提出的NIM-RTFNet在KITTI road基准上极大地减少了速度和精度之间的折衷。
图3 使用NIM进行可行驶区域分割和道路异常检测的网络架构
图4 NIM模块的原理说明
图5 GMPR数据集上的性能对比
表2 KITTI road基准测试结果
3. RNGDet: 借助Transformer在航拍图像中检测道路网络图
标题:RNGDet: Road Network Graph Detection by Transformer in Aerial Images
作者:Zhenhua Xu, Yuxuan Liu, Lu Gan, Yuxiang Sun, Xinyu Wu, Ming Liu, Lujia Wang
来源:IEEE Transactions on Geoscience and Remote Sensing 2022
原文链接:https://arxiv.org/abs/2202.07824
代码链接:https://tonyxuqaq.github.io/projects/RNGDet
摘要:道路网络图为自动驾驶汽车应用提供了关键信息,例如可用于运动规划算法的可行驶区域。要查找道路网络图,手动标注通常是低效和劳动密集型的。自动检测道路网络图可以缓解这一问题,但现有的工作仍然有一些局限性。
例如,基于分割的方法不能确保令人满意的拓扑正确性,而基于图形的方法不能提供足够精确的检测结果。为了解决这些问题,本文提出了一种基于变换和模仿学习的新方法。鉴于高分辨率航空图像现在可以很容易地访问世界各地,我们在我们的方法中使用航空图像。
作为航空图像的输入,我们的方法迭代地生成逐点的道路网络图。我们的方法可以处理各种数量的复杂交点。
现有的道路网络图形检测工作一般可分为两类:基于分段的方法和基于图形的方法。基于分割的方法首先预测道路网络图的概率分割图,然后进行一系列处理以获得道路网络的图结构,如骨架化和过滤。
道路网络图检测的早期工作大多属于这一类。由于使用了现有的强大的语义分割网络,基于分割的方法可以在像素级评估中呈现良好的结果,但是它们通常遭受不令人满意的拓扑正确性,例如不正确的十字路口连通性和道路上的错误断开。解决这个问题,最近基于图的方法诉诸于直接检测道路网络。
通常首先预测候选初始顶点,然后,从每个候选初始顶点开始,训练一个决策代理来预测当前顶点的相邻顶点。通过这种方式,可以以迭代的方式逐个顶点地生成道路网络图。尽管这些基于图的方法可以增强拓扑正确性,但它们通常由两个独立的阶段组成,使得它们难以以端到端的方式进行优化。各个阶段可能会累积误差,从而降低其有效性和效率。
为了解决这些问题,作者提出了一种基于图的端到端方法——基于Transformer的道路网络图检测(RNGDet)。与之前基于图形的方法类似,RNGDet从预测的候选初始顶点开始,使用卷积神经网络(CNN)主干提取局部视觉特征,然后将这些特征发送到受DETR结构启发的变压器网络。
由于使用了深度顶点查询,RNGDet可以一次直接预测当前顶点的任意数量的相邻顶点,从而可以处理任何道路网络,甚至是拓扑结构复杂的网络(例如任意数量路段的道路交叉口)。
与以前基于图的方法不同,RNGDet可以作为一个整体进行优化和端到端的训练。此外,作者通过模仿学习来训练RNGDet,使它能够在不同的情况下采取最恰当的行动。为了生成训练数据(即从模仿学习的角度进行专家演示),作者提出了一种采样算法来监督智能体探索整个道路网络。
RNGDet在RoadTracer发布的公开可用数据集上进行训练和评估。通过这个数据集,作者将RNGDet与基于多个评估指标得分的最先进的作品进行了比较。
总之,该项成果有以下贡献:
(1) 提出了一种端到端的可训练方法RNGDet,该方法基于Transformer和模仿学习来自动检测道路网络图。
(2) 提出了一种自动生成RNGDet训练样本的算法。
(3) 对RNGDet进行了评估,并在公开的数据集上将它与最先进的作品进行了比较,以展示RNGDet的优越性。
图6 RNGDet网络架构
图7 图更新的可视化结果
表3 不同方法的定量对比
表4 消融实验的定量结果
4. YOLOP: 你只看一次的全景驾驶感知
标题:YOLOP: You Only Look Once for Panoptic Driving Perception
作者:Dong Wu, Manwen Liao, Weitian Zhang, Xinggang Wang, Xiang Bai, Wenqing Cheng, Wenyu Liu
原文链接:https://arxiv.org/abs/2108.11250
代码链接:https://github.com/hustvl/yolop
摘要:全景驾驶感知系统是自动驾驶的重要组成部分。高精度的实时感知系统可以帮助车辆在行驶过程中做出合理的决策。
提出了一个全景驾驶感知网络(YOLOP)来同时执行交通对象检测、可驾驶区域分割和车道检测。它由一个用于特征提取的编码器和三个用于处理特定任务的解码器组成。
我们的模型在具有挑战性的BDD100K数据集上表现非常好,在准确性和速度方面都达到了最先进的水平。此外,我们通过消融研究验证了多任务学习模型在联合训练中的有效性。
据我们所知,这是第一个可以在嵌入式设备Jetson TX2(23 FPS)上同时实时处理这三个视觉感知任务并保持出色精确度的工作。
接下来的三个网络都属于多任务网络,同时实现交通目标检测、可行驶区域分割和车道线分割。在YOLOP中,作者设计了一种简单高效的网络架构。
作者使用轻量级的CNN作为编码器从图像中提取特征。然后,这些特征图被馈送到三个解码器,以完成它们各自的任务。检测解码器是基于YOLOv4进行,而实例分割借助三次上采样进行。
总之,该项成果有以下贡献:
(1) 提出了一个有效的多任务网络,它可以联合处理自动驾驶中的三个关键任务:目标检测、可驾驶区域分割和车道检测,以节省计算成本和减少推理时间。该项工作是第一个在嵌入式设备上达到实时的,同时在BDD100K数据集上保持最先进的性能水平。
(2) 设计消融实验,验证多任务方案的有效性。证明了这三个任务可以联合学习,不需要繁琐的交替优化。
(3) 设计了消融实验,证明基于网格的探测任务预测机制与语义分割任务预测机制更为相关,相信可以为其他相关的多任务学习研究工作提供参考。
图8 YOLOP网络架构
图9 YOLOP可行驶区域分割的定性结果
表5 YOLOP可行驶区域分割结果
5. YOLOPv2: 更好、更快、更强的全景驾驶感知
标题:YOLOPv2: Better, Faster, Stronger for Panoptic Driving Perception
作者:Cheng Han, Qichao Zhao, Shuyi Zhang, Yinzi Chen, Zhenlin Zhang, Jinwei Yuan
原文链接:https://arxiv.org/abs/2208.11434
代码链接:https://github.com/CAIC-AD/YOLOPv2
摘要:在过去的十年中,多任务学习方法在解决全景驾驶感知问题方面取得了令人鼓舞的成果,提供了高精度和高效率的性能。在为实时实用的自动驾驶系统设计网络时,这已经成为一种流行的模式,其中计算资源是有限的。
提出了一种高效的多任务学习网络,能够同时完成交通目标检测、可行驶道路区域分割和车道检测任务。在具有挑战性的BDD100K数据集上,我们的模型在精度和速度方面达到了新的最先进的(SOTA)性能。特别是,与以前的SOTA模型相比,推理时间减少了一半。
YOLOPv2算是YOLOP的升级版,各项指标都有提升。它的评估也是BDD100K数据集上进行,相较于YOLOP可行驶区域分割91.5%的mIoU,YOLOPv2达到了93%,相较于YOLOP提升了不少。此外,在NVIDIA TESLA V100上运行时,FPS为91,高于YOLOP的49FPS。这进一步说明,YOLOPv2可以降低计算成本,保证实时预测,同时为其他实验研究留下改进空间。
总之,该项成果有以下贡献:
(1) 更好:提出了一个更有效的模型结构,并应用了一种新的混合损失。
(2) 更快:为模型实现了更高效的网络结构和内存分配策略。
(3) 更强:YOLOPv2是在强大的网络架构下训练的,因此它可以很好地适应各种场景,同时确保速度。
图10 YOLOPv2网络架构
表6 可行驶区域分割定量对比
6. HybridNets: 端到端感知网络
标题:HybridNets: End-to-End Perception Network
作者:Dat Vu, Bao Ngo, Hung Phan
原文链接:https://arxiv.org/abs/2203.09035
代码链接:https://github.com/datvuthanh/HybridNets
摘要:端到端网络在多任务中变得越来越重要。这方面的一个突出例子是驾驶感知系统在自动驾驶中日益增长的重要性。
本文系统地研究了一个面向多任务的端到端感知网络,并提出了几个关键的优化方法来提高准确性。首先,提出了基于加权双向特征网络的高效分割头和盒/类预测网络。
其次,提出了在加权双向特征网络中为每一层自动定制锚点的方法。第三,提出了一种有效的训练损失函数和训练策略来平衡和优化网络。基于这些优化,我们开发了一个端到端的感知网络来同时执行多任务,包括交通对象检测、可行驶区域分割和车道检测,称为HybridNets,它比现有技术实现了更好的准确性。
特别是,HybridNets在Berkeley DeepDrive数据集上实现了77.3的mAP,并以12.83M参数和15.6B次浮点运算实现了车道线检测的31.6mIoU。此外,它可以实时执行视觉感知任务,因此是多任务问题的实用而准确的解决方案。
HybridNets也是一种多任务网络,主要是基于BiFPN的融合策略设计的。整体来说并没有什么太大的创新点,但是网络的性能相较于YOLOP实现了一定的提升。
总之,该项成果有以下贡献:
(1) HybridNets是一个端到端的感知网络,在BDD100K数据集上实时取得了出色的结果。
(2) 任意数据集中加权双向要素网络中每个级别的自动自定义锚点。
(3) 平衡和优化多任务网络的有效训练损失函数和训练策略。
图11 HybridNets网络架构
图12 HybridNets效果图
7. 结论
在自动驾驶系统中,可行驶区域分割任务至关重要。本文介绍了6种不同的车道线分割网络,其中4个网络已经开源。每种网络都有其各自的特点和优势,读者在设计自己的网络时,要有针对性得设计架构。
当智能重卡驾驶座“无人”,驶上东海大桥,是什么感觉?
当测试员小周又一次坐上5G智能重卡的副驾位,车内与他一起的,依旧是那位搭档了很久的安全员谢师傅。但与此前唯一不同的是,谢师傅并没有坐在驾驶位上,而是坐到了后排。此刻的5G智能重卡,主驾位上空无一人。
近日,友道智途智能重卡减员化测试正式进入第二阶段,两车编队行进,第二辆车以主驾无人的形式正式驶上东海大桥。
“在智能重卡减员化测试第一阶段,友道智途在实现1500公里零接管目标之后,我们就相信,二阶段的测试肯定是水到渠成了。” 友道智途首席架构师、智驾中心副总经理张显宏强调,“一阶段的1500公里零接管,是连续1500公里零接管,过程中只要安全员动一次方向盘,踩一次刹车,我们这个公里数就要清零,从头再来。”
紧张的气氛,只持续了两天 但即便如此,减员化二阶段测试正式启动,智能重卡上桥那一刻,无论是前方一线驾驶舱内,还是后台控制中心,空气的流动仿佛也比平时慢了些许。
“第一次上桥,我们从后台监控里清楚地看到,包括安全员和测试员在内,两个人都有些紧张,虽然我们自动驾驶过程中安全员‘零接管’已经是一种工作常态,但车辆以主驾无人的形式驶上东海大桥,还真是国内首次。”张显宏告诉《上海汽车报》记者,“别说他们,二阶段测试开始前几天,我们后台控制中心都挤满了人,虽然心里都知道我们的智能重卡肯定能迈过这道坎,但因为方向盘后面是真的没人了,就还是免不了紧张、激动而要盯着监控。”
紧张的气氛仅仅持续了两天不到,从第三天开始,从监控中很明显就能看到,驾驶室内的安全员和测试员无论是姿态还是神情越来越放松,后台控制中心内聚拢起来的工程师也恢复了正常的工作节奏。
迈过了心理上的这道坎,二阶段测试工作很快进入了常规熟悉的节奏。截至目前,智能重卡减员化二阶段测试已经零接管安全行驶超过了1000公里,并且正在日复一日不断刷新着新的里程数。
越来越“老司机”的智能重卡
在友道智途智能重卡以两车编组,第二辆车以主驾无人的形式行驶在东海大桥上的过程中,通过大桥管理方获知的数据,同一时间段在全长36公里的大桥上行驶的车辆,最多时超过4000辆。
路上车多了,意外情况发生的概率也就大了。据了解,在智能重卡减员化二阶段测试过程中,也发生过前面出现维修工程车辆走走停停,并且不断变道和减速的情况。面对这种突发“考验”的时候,智能重卡表现出了完全可以媲美“老司机”的操作,车组减速、变道、加速、超车、回归车道一气呵成,毫无生涩,尤其是车组里的第二辆车,还是处于“真”无人的驾驶状态。
“当时,我就在车上。”张显宏笑着告诉记者。
记者曾经体验过智能重卡在大桥上的行驶过程,真实场景中,智能重卡不可能一直以(全车队)编组状态从头运行到尾,中间必然会遭遇各种考验,也不大可能一直会存在五车编队同时变道的理想空间,所以两车编组、三车编组,甚至是单车行进都是有可能出现的情况,需要进行灵活的策略组合。“我们结合实际换道空间和交通场景来决策。未来,五辆车可以根据实际路况和场景,通过智能算法灵活、自由拆解编组队列,在保证安全的条件下提高效率,不断提速。”张显宏补充道。
算法升级,安全升级
“比如,我们相邻左车道有辆大卡车,经过它的时候,智能重卡就会像老司机一样往右边离他远一点进行避让、偏离、绕行。”张显宏表示。
据了解,从减员化一阶段测试开始,友道智途就不断对算法、感知和规控(规划控制)进行迭代升级,一次次降低了智能重卡对路面目标的误检率。同时,通过算法层面的升级,车辆行驶过程中的舒适性也得到了进一步提升。
在早已实现厘米级高精度定位的基础上,友道智途交出了一份“一题多解”的“全冗余系统架构”全新答卷——当某一个点出现风险和故障,其他冗余备份及时无感替补,避免风险。RTK卫星定位、视觉、激光雷达、毫米波雷达,成为这道题目的多个解答,互为补充。智能重卡拥有3×360°(3种不同的传感器,包括激光、视觉和毫米波,每一种都可实现360°感知)的超远距离感知能力,为“减员化”测试保驾护航。
而与之相匹配的是友道智途今年自建的、专为高精定位服务的“点云地图”,让智能重卡的“视力”从1.5变成了2.0。如果路面要素有变化,比如道路虚实线的改动等,智能重卡基本上当天就能完成地图的更新迭代。
除了算法上的升级,友道智途还加强了智能重卡的“应急降级”体系。在模拟故障的测试中,友道智途模拟了传感器故障、智驾系统故障、整车自动转向故障等各种情况,车辆在行驶过程中,当系统自动检测到某些异常状态时,如果智能系统判断无法在第一时间恢复,智能重卡会先一步主动降速,并通过对路况的智能分析和判断,自动决策在安全条件下靠边停车,等于给智能重卡加上了一把环环相扣的保险锁。
“与减员化二阶段测试同步进行的,还有我们正在升级途中的鸿鹄2.5系统。”张显宏告诉记者,“这次升级不仅会将硬件换成更大算力的计算平台,感知算法也将迭代成将激光与视觉联合标注的3D算法,感知的‘强强联手’将达成‘1+1>2’的效果。同时,我们的规控也将进一步迭代,通过深度学习预测来提升智能重卡的拟人化决策。”
音视频技术
转瞬间,2022 已慢慢步入深秋。回首过去一年,音视频技术在经历一番风浪的侵袭过后,变得逐渐相对平静下来。“内卷”之外,大家似乎更多了一份“理性”指导我们去做一些正确的事,追求技术在商业中的更高价值。具体体现在我们要思考如何才能将自身能力更多、更快、更好的转化为产品。无论是从技术优化创新、提高服务质量,或是从降低成本、提升效率等方面考虑,都力求为客户实现更高的价值和收益。
只有经历过实践考验与打磨,能够解决实际问题的技术,才是“真正”意义上有价值的技术。接下来11月4日至5日即将在北京举办的LiveVideoStackCon 2022音视频技术大会,我们将延续【音视频+无限可能】为主题,邀请业内众多企业及专家学者,将他们在过去一年乃至更长时间里对音视频在更多领域和场景下应用的探索、在实践中打磨优化技术的经验心得、对技术与商业价值的思考,与大家一同分享和探讨。为此,我们还邀请大会各专题出品人,对音视频部分关键技术当前发展现状,以及专题演讲内容中值得关注的一些亮点和关键信息进行了总结。
以下内容仅供提前了解(剧透:)),更多期待来现场吧!
主题演讲
经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。从LiveVideoStackCon 2022北京站大会的主题演讲来看,三个主题代表了三种不同的叙事,但主旨都是在寻找突破口。浙大虞露老师分享的是面向机器的视频编码,相对于传统的面向人眼的编码,面向机器的视频编码拥有更大的创新空间。人工智能在人类的生活中扮演更多的角色,相应的视频编码需求强烈。第二个议题来自快手于冰,他同时也是快手toB品牌StreamLake负责人。作为最具代表性的短视频平台之一,快手在保证用户体验的同时更精细化运营,降本增效。同时,StreamLake是另外一种可能,2C的终局一定是2B吗?最后一个议题来自Nreal的吴克艰。XR被认为是继智能手机后下一个战场,而音视频要提供关键的支撑能力。—— 包研 LiveVideoStack创始人
音视频服务架构演进
最近三年,受疫情影响,整个音视频实时通讯行业在全球有了非常大的发展和突破,无论是国内还是海外,视频会议已经成为人们日常办公、沟通协作的首选。另外,RTC技术在泛娱乐、在线教育领域都得到了广泛的应用,在金融、IoT领域的应用也开始开花结果。从技术角度来看,整体是更高、更快、更强。更高的清晰度和分辨率;更快的传输速度和时间(更低的延时);更强的终端性能,后续实时音视频还是会围绕这三个方向进一步发展。为了适应这一业务需求变化,后台云服务也在经历着相应的演变:从单一转发功能演变为云端处理(转码、混流、AI能力等等),从集中处理转为分布式处理,从统一中心往边缘云演进。
—— 周思进 好未来
直播技术负责人
新风口:元宇宙入局之路
随着元宇宙时代的到来,越来越多的虚拟场景、虚拟环境和线上数字内容已经成为人们生活、娱乐中不可替代的一部分。而构成这些数字内容的底层技术和方法,也就成为了未来构建元宇宙世界的最基本要素。
本专题几位演讲者所分享的内容从互动技术到虚拟数字人,再到云边结合的各种构架建设,都是未来构建元宇宙最根本的技术,也希望通过与听众们的交流互动中让大家学习了解,并参与到未来元宇宙的构建之中。
—— 迟小羽 北航青岛研究院
副院长
音视频+
与「音视频」相关的产品早已走入千家万户,融入到人们日常生活中的方方面面,也带动了原本的传统工业实现新的产业升级与转型。随着音视频技术栈的不断创新,也在为不同的行业赋能。如音视频相关技术对港口远控、远程驾驶、云游戏、音视频业务平台搭建等场景进行助力,为未来创造无限可能。
本专题将从以上场景为例,分享基于5G网络的视频远程操控应用实践、RTC在云游戏的应用、LiveKit低代码等话题,来探讨音视频技术能力是如何巧妙融入其中,助力发展。
—— 李静 LiveVideoStackCon
主编
硬件开发趋势与技术探索
硬件作为一切系统设备及软件的底层基础支撑,随着云服务、AI计算、物联网等技术及各项因素的发展成熟,硬件开发行业的发展趋势越来越迅猛,其中充斥着各种挑战与机遇。如何创造出更加高性能、高质量的底层硬件,如何使硬件算力与软件系统完美结合,如何将硬件与使用场景相结合,实现更为智能化的产品及应用。本专题将就当前硬件开发趋势,所面临的困境与难点,硬件开发技术与优化实现,未来发展前景等进行深入探讨。
—— 贾慧柱 北京大学信息科学技术学院
副研究员
AI与多媒体
AI与多媒体两者密不可分,相互促进发展。尤其在近两年互联网视频内容发展进程中,诸如深度学习等技术在视频处理、编码压缩,内容生产与分发流程以及最终呈现质量的提升等方面都给予了很大的助力。除此之外,多模态技术、计算机视觉、计算机听觉等多媒体技术也为一些未来可能的应用场景突破提供了更多底层的支持。
此次专题演讲,我们也邀请到了多位专家,希望能从包括以上在内的多个方向进行分享,让大家能够更多了解AI赋能多媒体发展与突破的一些实践及探索经验。
—— 杨建刚 艺术宝
技术总监
声声入耳:音频新体验
随着多媒体和通信网络技术的不断更新,以及新型音视频应用场景的不断涌现,音频处理技术向着更加智能化和沉浸化的趋势发展。人们对音频的听觉体验要求也逐步提高,各类场景下的声音体验更加清晰,并呈现声临其境的沉浸感。
本专题几位老师演讲将分别从高清音频、智能降噪、蓝牙通话、空间音频等技术来探讨不同场景下的落地方案和应用实践。
—— 王晶 北京理工大学信息与电子学院通信技术研究所 副教授
音视频技术与服务全球化
针对音视频技术与服务全球化,目前主要的趋势还是如何把中国成功的业务模式落地到更多的国家,业务的落地和发展涉及到技术、产品、运营、市场等方方面面的协同,缺一不可。但对于技术来说,如何解决好适应性,可扩展性非常重要,针对不同地区的网络环境及用户习惯做不同的策略是常常需要解决的问题。另外,目前云服务供应商提供的基础服务已经越来越好,越来越完善了,这也让大家可以越来越聚焦到业务本身了,是个很好的趋势,但这也会进一步加剧业务间的竞争。
这次本专题聚焦在两部分,一部分是来自云服务商针对出海热门地区网络现状的分享,并讲述他们是如何通过测量来发现问题、设计策略解决问题、进而不断提升服务质量的;另一部分是着重介绍在客户端上的优化实践,例如为了不断提升用户体验和业务数据,如何来进行实验设计、数据分析、策略设计等,以及若干播放器上优化的具体案例。
—— 禚伟 MXPlayer
CTO
网络传输优化
复杂的网络环境和多样的视频业务对多媒体传输提出了更高的要求,极低延时并准确的网络传输能力是人们不断去追求的终极目标。学术界和工业界研究人员们持续关注优化网络传输能力,在应用层流控、传输层协议设计及跨层优化等方面不断努力,解决了诸多严峻的技术挑战,完成了高效的传输算法设计与系统实现,并最终提升了用户体验。本专题将探讨在实时通信等场景下,在弱网端到端优化、内容分发等方面的最新研究进展与实际应用情况。
—— 崔勇 清华大学
计算机系教授
媒体服务质量保障与QoE
什么样的指标可以很好地衡量音视频系统质量?又有什么指标能够反映最终用户的真实感受?同时随着当今音视频系统不断发展和完善,如何在越来越复杂的系统中,在动辄几百个监控指标中识别出核心指标,并持续优化?这些都是业界面临的普遍问题。虽然过去3-4年业界都有很多尝试与分享,但是可能由于这个问题跟各家具体业务结合比较紧密,业界仍然没有形成统一的标准。在过去几届大会此专题的分享中,我们看到了很多音视频企业的实践和经验分享,本次让我们以更加开阔的视野,听听来自声网、vivo互联网、百度和Hotstar等公司的优秀工程师在这个问题上的新的思考和实践。
—— 段兵楠 美团
基础技术部技术专家
视频编解码的新突破
随着人工智能、超高清、元宇宙等技术的涌现和发展,经历四十年打磨的视频编解码技术再次迎来发展的春天。其中端到端的AI编码性能已超过H.266,达到开启下一代编码标准的增益阈值--30%以上。与此同时,随着数字化产业升级和规模发展,面向工业、安防等场景化编解码得到产业界的青睐和实践;学术界同时开启了面向机器智能、面向语义的编码技术探索,得到了开启编码新领域的技术证据。
“视频编解码的新突破”专题聚焦新兴视频编解码技术的发展及其应用,将探讨视频编码标准、端到端的AI编码、面向场景的智能编码、机器视觉编码技术的最新发展和实际落地应用,与大家共话视频编解码的未来。
—— 张园 中国电信研究院 大数据与人工智能研究所副所长
Web与客户端建设
客户端是业务的最前线,既承载了公司的商业目标,又承载了用户的最终体验;既能感受到商业大环境的冷暖交替,又能感受到需求与使用场景的持续演变。如何降本增效?如何持续应对新需求的挑战?
在这里你会看到可落地的新技术在规模化实践中的一手经验,还有面对变化持续构建长期有效解决方案的一线实践。不限于技术、不脱离技术、不同视角看Web与客户端。
—— 白天 同视未来
客户端负责人
内容生产&消费
后疫情时代,音视频技术越来越多地渗入到人们生活当中。对音视频质量、内容形式也有着更高的要求。高质量视频内容的生产,沉浸式的视频体验也逐渐走入人们的视野。专业级影视生产流程逐渐引入到网络视频平台,8K高清视频消费也正走入用户的日程生活。虚拟拍摄、有趣新颖的动画效果吸引着越来越多用户的眼球。这些对于内容创作者,有着更高的要求,同时音视频技术对新方向的支持也被赋予了更多要求。本专题将就视频的生产制作和消费中的技术创新进行深入研讨。
—— 姜雨晴 分秒帧
音视频团队负责人
除上述专题演讲外,本次大会还有以下两种不同形式的精彩内容展现值得关注:【技术商业策略(圆桌)】与【技术品牌专场】
技术商业策略(圆桌)
视频的大时代正在加速到来,随着多媒体技术的蓬勃发展,诸如“沉浸式技术”“元宇宙”等更多新的概念开始逐步进入大众的视野,由此引发的是多媒体更多新业务、新场景及应用的不断迸发,挑战与机遇并存,如何在更加激烈的竞争中寻找机会?
本次专题共选取当前备受关注与讨论的三个话题方向 “元宇宙入局之路”,“从“芯”出发,布局未来”,“音视频企业“走出去””,以圆桌对话的形式,与业内资深专家共同探讨从行业现状、趋势,技术探索创新,业务产品落地全方面的可能。
—— 周全 哔哩哔哩 多媒体技术部
资深技术总监
技术品牌专场
本次大会技术品牌专场将以一种更为全面、系统化的方式,邀请多位专家,与大家一同探讨音视频在技术创新,以及在行业趋势、业务扩展、产品应用等各方面挑战背后的技术探索与应用实践。
芯片战争下我国集成电路产业的危机与希望
美国的《芯片与科学法案》还在发酵,面对精准、严酷、违背基本商业准则的打击,思考我国集成电路产业的现状及将来的发展,分析我国集成电路产业链的实际情况,探讨国家产业政策的多层次跟进计划。01—芯片战争
Chris Miller的新作《芯片战争》(《Chip War》)上市三天,正赶上美国政府的《芯片与科学法案》发布,使得这本新书瞬间占据畅销书排行榜首位。《芯片与科学法案》公布后将会造成的现实和长远影响,各大媒体、自媒体都已经有了各种解读、报道。本文不再赘述,但用《芯片战争》来形容我认为是最为恰当的。1、限制本国公民、永居、庇护公民、按美国法律设立的法人(包括外国分支机构)、身处美国的人为特定国家企业服务;2、已形成事实商业契约的设备即刻停止服务。以上两点,即使是美国打击日本半导体行业时使用过的最严酷的手段也望尘莫及,只能用战争行为来形容才贴合实际。两个拥有正常外交关系的非交战国,出现这样的关系。除了热战,不可能还有更恶劣的关系可以形容了。02—影响、现状与应对
一、《芯片与科学法案》的现实影响1、我国正在艰难爬坡的高阶集成电路工艺面临艰难的困境。高算力逻辑芯片、18nm
DRAM、128层NAND,是限制的门槛。中芯国际、长鑫存储、长江存储等尽管还没有进一步的报道,但毫无疑问,影响是巨大的!至少,作为企业而言,技术之外还必须要考虑经济损失。2、美籍华人或持绿卡的公民面临抉择。集成电路产业链的各个环节,从芯片设计、制造、设备、EDA软件及高端材料,近几年的初创企业有许多美籍华人或持绿卡的公民。他们如何抉择?按照当下的情况,保留美国国籍或者绿卡是最为直接和简单的选择。但项目的停止以及金融机构和各地政府的投入应该是千亿级别的损失。3、中国集成电路高阶工艺的进程将会延后。这毫无疑问是《芯片与科学法案》的最主要目的之一。
二、《芯片与科学法案》的长期影响1、全产业链解决高阶工艺卡脖子的问题没有可见的时间表。无论是光刻机、EDA、还是高阶材料,要完全100%国产,相信整个产业链都是不曾想象的。尽管在国家层面,历史上有持续的关注和投入,大基金也给予了针对性的投资。近年来,我国集成电路行业也的确取得了长足进步。但到目前为止,针对高阶工艺的明显突破,短期内连时间表的预测都很难出现在我们的视野。2、集成电路产业的特点是除了产业界的复杂性之外,还必须要有基础的理论研究。我国在这个方面差距更大,且还更不容易引起各方面的关注,特别是产业政策和投资方的关注。
三、特定环境下集成电路行业的状况1、新冠疫情影响下,全球经济下行在所难免。集成电路行业也同样面临下行周期,全球产业链都面临严酷的寒冬。2、地缘政治造成的产业“政治化”、“本土化”势必对全球集成电路产业带来全面的影响。精准打击中国的同时,所有国家包括美国在内的关联行业同样是雪上加霜。相信整个产业链都在评估和掂量未来的行业走向。3、Chip4联盟的成立,无疑也会对整个产业带来前所未有的变数。按照现有技术和行业发展的状况,Chip4占据了集成电路行业的绝大部分份额。这个联盟能否如愿按美国的设想形成新的行业垄断,相信不但中国在应对,联盟外的其他国家也在观望。
四、应该对中国集成电路产业的长期发展保持足够的信心1、我国是全球最大的单一市场,吸纳了全球34%的芯片产能。集成电路是技术、资金、人才等等最为集中的产业。没有中国的大市场,全球产业都要面临严峻的生存危机。因此,市场在集成电路赋能行业升级的作用毫无疑问是巨大的。我们有理由、有条件相信巨大的市场空间、强劲的内需拉动,是我国集成电路发展的强大动力,同时也能够产生不可低估的国际影响力。2、以我国集成电路产业的实际水平来看,高阶技术的确存在代差。但我们可以毫不犹豫的说:中国是全世界集成电路产业链最为齐全的国家。论产业覆盖,连美国也赶不上。近年来军事工业的长足进步,有力地证明了这一点!因为无论是有源相控阵雷达、北斗卫星,还是空警500预警机等等,都离不开我国集成电路人长期的努力,更不要说航天工程的辉煌成就了。加上改革开放40年的发展进步,我国在工业基础的布局和实力,也为集成电路产业的发展提供了别的国家难以比拟的优势。因为集成电路的发展,离不开整个国家整体工业实力的保障。3、从发展和多维度的视角看待《芯片与科学法案》的影响。多年来,正是因为我国经济实力、科技实力的发展,我们不断在各个产业侵蚀发达国家的产业链上游。整体实力的上升,我们才有机会探寻科技产业皇冠上最后的一颗明珠—集成电路。中芯国际成立的时候,美国给出的技术限定是110纳米。现在的《芯片与科学法案》,限制的是14/16纳米。如果不是当初ASML EUV光刻机的限制,当今国际集成电路行业,有可能是两岸半导体的共同繁荣景象。因为,据报道中芯国际仅仅用DUV光刻机,就可以生产14nm的芯片了。尽管还不是量产的水平和规模,但已经进入到FinFET的高阶工艺行列,是不争的事实。2016年才成立的长江存储,6年的时间就步入闪存的第一梯队,并获得了苹果公司的供应商资格。从这样的维度观察和思考,我们对《芯片与科学法案》影响的认知,才不至于过分消极和悲观。因为,美国能够坚守的高科技阵地真的不多了,才会不管不顾的使出伤敌一千,自损八百的杀手锏。4、美国政府不顾自己国家相关产业的损失,推出《芯片与科学法案》针对单一特定的国家。他们的公民连自由选择职业的自由都被剥夺,违反的是他们自己倡导的自由价值观。他们的企业已经售卖出去的设备,被断然终止服务,违背的是人类社会公认的基本商业准则。他们这样的做法,连同历史上对德国、法国、日本这些他们价值观相同的盟友的打压。相信会对当今人类社会产生深远的影响。即使是Chip4 联盟也心有余悸。且不说张忠谋不相信台积电在美国会获得成功,台湾的产业界人士都相信一旦在美国建成芯片工厂。台积电的价值何在?关于这个问题,三星的后顾之忧更为直接。因此,《芯片与科学法案》一定是一把双刃剑,挥向中国的同时,必定伤及他们自己。更为重要的是,短期内影响的是中国,而长期的负面影响,一定是美国。因为,产业的损失无论如何都是可以用时间和金钱来衡量的。但对人类社会既有规则的破坏,将是长远且无法估量的。5、从市场的角度来观察,高阶工艺的市场规模只占集成电路产业的10%左右。发展成熟工艺才是王道,我们有机会把成熟的工艺做扎实,获取最佳的品质成本比。这对我国集成电路行业长期扎实的发展是有极大的意义的,反过来也会对全球集成电路行业产生深远的影响。6、从技术的角度来审视,近年来正是因为我们享受全球化的红利,使得应用领域拥有没有限制的获得高阶工艺产品带来的便利。我们从产品的应用设计层次开始,就缺乏深度挖掘集成电路产品潜力的原始动力。这在当时环境下当然是合理并可以理解的。在被限制之后,我们可以全产业链从应用产品开发、芯片制造、封装技术的创新等各个领域挖掘潜力。让成熟工艺的产品,获得接近高阶工艺产品的性能。因为摩尔定律无论如何是有限制的,硅基半导体,3纳米以下的性能提升,只有10%左右了,而且还受到良率提升的极大限制。我们全产业链的优化、挖潜,以现有的技术基础来看,绝对不止这样的提升幅度。特别是先进封装技术,在可见的技术层面和我国在这方面的已有技术能力都存在巨大的潜力。应该给予极大的投入和扶植。7、从应用的角度来评估,高阶工艺的产品,主要应用的领域是手持等对便携性和功耗有刚需的产品。而美国虎视眈眈的云计算、超级计算机、AI等对便携性的要求并不敏感。因此,成熟工艺的产品完全有机会应对。而车载芯片、绝大部分人工智能对便携性和功耗更加不敏感。因此,《芯片与科学法案》短期内影响我国集成电路高阶工艺的同时,我国应用领域受到的影响只要全行业积极应对,就可以把负面因素降低到最低。而且还有可能在这个过程中,倒逼出全新的商业模式、产品类型。8、从我国改革开放40年的发展历程来审视,我国一直秉承开放的原则和学习的心态,也的确收获了巨大的成就。但也产生了对全球化的依赖。《芯片与科学法案》的出台,让高科技领域的国家竞争彻底撕破了底裤。不得不让集成电路产业彻底放弃依赖和幻想。从长远来看,一定会产生从基础科学到全产业自主研发的原始动力。尽管我们不愿意看到这样的局面,但也是不得不采取的应对方式了。无论需要多长的时间,高阶工艺延缓多少周期。长远来看,长治久安,唯有此道!9、《芯片与科学法案》的出台,精准打击了高阶工艺技术。但我们有机会顺势从产业领域解决过度投资、重复投资等积重难返的难题。彻底改变“乱枪打鸟”的混乱模式,使得资金、人才等资源重新合理分配。10、国家产业政策的调整出台,没有了任何后顾之忧。国家扶植、集中优势等产业政策一直是以美国为首的西方国家诟病我国政府干预经济运行的热点。《芯片与科学法案》的出台加上美国的产业补贴计划。闭关锁国和国家干预的标签已经反过来贴在了美国的脸上。因此,国家大张旗鼓地出台相关集成电路的长期并且针对性的扶植政策没有了后顾之忧。这是集成电路宏大发展的重要保障。
五、产业政策的应对和调整1、国家应该出台从基础研究到解决卡脖子问题的一揽子长期扶植计划。2、集中行业优势资源,合理干预已有成果的共享。先解决重大技术难题,再由国家出面合理分配利益。避免相关领域通常意义上的商业竞争。集中资金、人才等资源投入到更需要的领域。3、制定详细的产业规划和扶植政策。布局国家安全、科技竞争等核心领域的产业甚至产品细则,以鼓励下游市场对国产化集成电路产品的应用。4、加大人才培养力度。笔者母校已经成立了集成电路学院。类似的相关人才培养计划还应该加大。因为,集成电路是人才最为密集的行业。除了产业应用,还需要基础理论的研究。所有这些都离不开人才。5、始终秉承改革开放的宗旨,争取最大的国际合作。即便是Chip4联盟,也是我们争取合作的对象。自主创新并不代表闭关锁国,要利用一切可以利用的对象,缩短我们追赶高阶工艺的周期。6、积极关注海外华人的职业动态。纵观全球,集成电路行业的从业人员,相当大的比例是中国的留学生或者海外华人。比如美国限制我们的三大EDA软件公司Cadence、Synopsys、Mentor,历史上笔者的师兄弟就占据了研发人员相当大部分的比例。《芯片与科学法案》的出台,已经在中国创业的海外华人短期内面临艰难的选择。但长期来说,这些人回到美国如何生存和发展?另外,各大美国企业内部,存在相当大比例的华人。《芯片与科学法案》是否会对他们的生存带来类似“麦卡锡”主义的影响?加上臭名昭著的“中国倡议”计划对华人科学家、学者的负面影响。国家相关部门应该针对性地关注他们的职业、生活各个方面,争取他们回国发展。因为人才的竞争将是最核心的竞争范畴,我们应该有相应的特殊国家政策出台并实施。关于这一点,随着国家各方面的进步,我们既有现实的需要又有实际的可能。因为,据统计现在美国各大学校的中国留学生有超过25%以上明确表示学成后要回国发展。这跟30年前的状态发生了质的变化。但我国是非移民国家,目前面临选择困境的华人即使选择放弃美国国籍,理论上也没有重新加入中国国籍的通道。这应该是国家相关部门应该重点关注并应对的。7、金融投资领域的创新政策需要跟进。集成电路行业的另外一个特征就是资金密集,遭受《芯片与科学法案》打击的影响,我们应该在金融投资领域制定特殊的政策。当下,应该解决海外华人不得不选择离开的企业相关的投资遗留问题,保护金融投资机构的积极性。将来,除了国家基金的扶植,应该制定让各级金融投资部门敢于投、放心赚、不怕亏的特殊政策。8、清醒认识新冠疫情带来的下行周期的影响。聚焦重要节点,抓紧逆周期投入,尽快布局重大基础研究和卡脖子问题解决的同时,在成熟工艺市场培育重点企业做强做大。打造该领域的全球非对称优势。
结语:《芯片与科学法案》的出台,尽管美国仍然套上了价值观的外衣。但笔者更愿意把中美高科技竞争看作是人类社会最原始的动物属性使然。就像是两个雄性动物为了争夺生存空间,必然是你死我活的。这跟价值观、主义、文化背景等没有任何关系。美国历史上针对竞争对手,无论是不同价值观的前苏联还是相同价值观的德国、法国、日本,直到现在的中国。尽管采取的手段、方法、力度有所不同。但本质其实是一样的,那就是,雄狮只能有一个!当下的中美高科技竞争,就像角斗场上的两个巨人,一个采用的是拳击的打法。猛打猛冲,但对方是一个骨子里充满太极、阴阳、八卦、五行基因的内家拳高手。谁胜谁负?我相信,有战略定力的会赢在最后!
参考文献链接
https://mp.weixin.qq.com/s/zaMrTd_v9V0llYw17-VFdw
https://mp.weixin.qq.com/s/hSgbFMkMyshkoh8as12O4g
https://mp.weixin.qq.com/s/0dkN6ydxUG8aPyuNVBZFGQ
https://mp.weixin.qq.com/s/nXeAsg6EpgXbvwdsEY28yQ