玩转云端 | 算力基础设施升级,看天翼云紫金DPU显身手!

 

数字时代下,算力成为新的核心生产力,传统以CPU为核心的架构难以满足新场景下快速增长的算力需求,具备软硬加速能力的DPU得以出现并快速发展。天翼云凭借领先的技术和丰富的应用实践自研紫金DPU,打造为云而生的全新一代云计算体系结构,助力算力基础设施升级,赋能海量算力高效释放。

传统数据中心里,所有的数据处理都依赖于CPU的通用计算能力,近10年来,数据带宽增长超过10倍,然而因为摩尔定律的失效,CPU的主频几乎没有增长,给算力基础设施的发展带来了极大挑战。

云计算要实现虚拟化管理需要依托众多虚拟化和管理组件,这会大量占据服务器主机的CPU和内存资源,带来巨大的算力消耗,形成高额的算力税。然而即便如此,基于CPU通用计算能力、以纯软件来实现的虚拟化组件,整体性能仍无法满足客户日益增长的数据处理需求。且国产化芯片架构、操作系统种类繁多,复杂的适配工作会耗费大量的人力和时间成本,新型高性能计算架构势在必行。

天翼云作为云服务国家队,积极应对算力挑战,自研紫金DPU,通过虚拟化组件卸载、多种业务硬件加速以及自研三栈合一高性能网络协议,打造高性能、低延时、高可靠性并且可大规模部署的环境,助力算力基础设施升级。

天翼云紫金DPU采用SOC+FPGA架构,依托FPGA强大的处理性能和灵活的可编程能力,对多种应用进行加速。

对于客户使用的虚拟网络和存储设备,其后端都是通过DPU硬件来实现。天翼云紫金DPU通过硬件DMA提供超强性能和超低时延;通过硬件模拟提供数以千计的pvf设备和queue资源,充分满足虚机容器等场景下大量虚拟设备的应用需求。

对于虚拟网络、虚拟存储业务,天翼云实现了DPU卸载加速。虚拟网络的控制面,包括vnet的agent和OVS的控制面,以及数据面Slowpath都运行在DPU的SOC上;慢速路径处理后生成的fastPath,则全部被卸载到DPU的硬件上。除首包需要上送到软件之外,后续报文都可以直接通过硬件处理来进行加速。

对于存储业务,控制面的建链也是通过DPU的SOC来实现的。SOC完成建链后,会将连接信息以及云盘的元数据信息等都更新到FPGA硬件里面,之后的存储IO硬件能够直接处理,无需再通过SOC。除了支持基础的存储IO卸载加速外,紫金DPU还支持部分应用加速,例如EC纠删码计算、数据压缩、存储object hash值计算等操作。通过硬件卸载加速,天翼云的存储业务可以为客户提供极致的性能。

此外,天翼云还开创性的推出三栈合一的传输层网络协议栈,即SF-Stack,Super fusion超融合协议栈,在底层提供统一的传输层接口,支持传输协议的动态选择和切换,上层应用只需要关注业务逻辑,无需关注传输层,做到简单易用、超高性能、超高可靠。AZ内数据传输采用RDMA传输协议,跨AZ的传输首选用户态的TCP协议,实现极致性能,同时该协议还保留了可靠性更高的内核态TCP,作为故障发生时的最后兜底手段。

最后,依托于DPU的物理隔离,天翼云紫金DPU将虚拟化组件和DPU一起作为一个整体,实现了不同算力、不同架构、不同系统即插即用,支持市面上大多数不同架构的主流芯片,真正做到了一云多芯,助推国产算力基础设施生态发展。

依托全新的紫金架构,天翼云实现了服务器虚拟化接近零损耗,助力算力全面释放,推动整个算力基础设施运营效率大幅提升,为客户带来更优的使用体验。

在虚拟网络转发方面,通过DPU卸载加速,曾经需要十余个宿主机CPU才能实现的2000万pps提升至4000多万,提升了超100%;

在存储方面,通过硬件RDMA加速,配合天翼云自研拥塞控制算法,IOPS能力从60万提升至200万,提升了超200%;

▍在时延方面,紫金DPU使网络时延降到了原来的四分之一。

在数字经济飞速发展的当下,DPU作为新的蓝海赛道,具有巨大的探索空间及应用价值。天翼云将继续坚持科技创新,挖掘DPU的更多潜力与可能,推动数据中心向高效率、高扩展、高带宽、高灵活性发展,为数字中国建设铸牢云底座。

 

 

posted @ 2023-04-20 17:25  天翼云开发者社区  阅读(197)  评论(0编辑  收藏  举报