智算中心发展趋势浅析
本文分享自天翼云开发者社区《智算中心发展趋势浅析》,作者:3****m
从国家到地方再到各类市场主体,都在大力推进算力资源布局建设,智算中心发展呈现算力的规模需求快速增加、围绕算法的服务模式持续完善、普适朴实普惠的服务生态逐步构建、绿色低碳的发展格局加速形成等新趋势。
(一)智能算力的发展需求快速扩大
算力资源是数字经济发展的重要底座。随着数字经济蓬勃发展,数字化新事物、新业态、新模式推动应用场景趋向多元化发展,算力规模不断扩大,算力需求持续攀升。
智能算力需求规模快速增长。5G、工业互联网、物联网、人工智能等信息技术加速发展带动数据量爆炸式增长。随着人工智能技术的高速发展,智能化正以前所未有的速度重塑各行各业,我国算力结构也随之不断演化,对智能算力的需求与日俱增。数据显示,2021年中国智能算力规模达155.2 EFLOPS(FP16), 预计到2026年中国智能算力规模将达到1,271.4 EFLOPS。2021- 2 0 2 6 年期间,预计中国智能算力规模年复合增长率达52.3%,同期通用算力规模年复合增长率为18.5%。
智算中心建设布局浪潮快速掀起。智算中心能够提供大规模数据处理和高性能智能计算支撑,将经济、社会、产业中各种模型、经验固化下来,形成新的生产力,并支撑智能化的产业、服务和治理。智算中心是具有强公共属性的开放服务,能够实现对大区域的数字化辐射带动,成为经济发展的新动力引擎。随着“东数西算”工程、新型基础设施等国家政策规划出台,我国智算中心掀起落地热潮。当前我国超过30个城市正在建设或提出建设智算中心,整体布局以东部地区为主,并逐渐向中西部地区拓展。未来,随着我国智算中心布局的持续优化与完善,以及人工智能应用场景的不断创新和解锁,智能算力需求将得到更大释放,智算中心的赋能作用将被进一步激发。
复杂场景计算需要多元算力的开发生态体系。智算中心的芯片、服务器、固件、操作系统等可能由多方提供,易存在多型号硬件无法兼容、软件投入和应用难以支撑上层业务发展等问题,严重制约了智算中心的应用。因此,智算中心应该兼容适配更多技术体系,通过开源、开放的方式建立可兼容底层硬件差异的异构开发方式,突破异构算力适配、异构算力调度等关键技术,加速基础软件、商用软件和开源软件的生态构建,与各领域的知识模型、机理模型、物理模型相叠加,做到从硬件到软件、从芯片到架构、从建设模式到应用服务开放化、标准化,打通人工智能软硬件产业链,从而加速人工智能算力技术和产业生态形成。
(二)通用智能的算法模型快速演进
人工智能算法结构日益复杂、参数和样本规模持续扩大, 算法的快速演进正改变传统计算范式。大模型加速人工智能在千行百业中应用。大规模、大参数量预训练模型的出现不断提升人工智能模型的认知能力。 “预训练大模型+下游任务微调”的新范式已成为解决人工智能技术落地难问题的突破口,加速推进人工智能实用化、通 用化和普惠化发展进程。自2011年以来,全球人工智能领军 企业和研究机构纷纷加入人工智能大模型研究,人工智能模 型参数急剧增长。在短短三四年时间内,参数规模快速从亿级突破至万亿级。代表性大模型如谷歌发布的BERT,OpenAI发布的GPT-3、ChatGPT等。通过构建大模型提升人工智能处理性能、增强人工智能通用性、加速人工智能广泛应用已成为各界共识,未来大模型将覆盖更多生产生活领域,赋能千行百业的智能化升级。
多模态智能计算成为实现通用人工智能的关键。每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉、听觉、视觉、嗅觉,信息的媒介有语音、视频、文字等。多模态更贴合人类对多感知模态的认知过程,通过多种模态的数据,可以突破自然语言处理和计算机视觉的界限,在图文生成、看图问答等视觉语言任务上具有更强的表现。当前,多模态大模型引发了业界广泛的关注,并在 以文生图等领域取得了巨大进步,代表性模型有OpenAI发布的DALLE-2等。
(三)普适普惠的服务生态逐步构建
智算中心作为经济社会重要的算力载体,正向标准化、低成本、低门槛方向发展,形成集算力、算法、数据、运营于一体的服务生态,使智能计算可以像水电一样,成为社会基本公共服务,造福社会大众,让千行百业共享智算中心建设成果。
算法应用普适化。在经济活动各环节的智能化升级中,人工智能需要与各行业的业务流程、信息系统、生产系统等深度结合才能产生价值,存在一定应用门槛,在一定程度上阻碍了各行业的智能化转型升级。依托智算中心的超大规模预训练能力,各行业人工智能应用将不必从零开始开发。人工智能模型可以实现在众多场景通用、泛化和规模化复制,只需结合领域数据进行调整和增量,即可形成具有良好精度和性能的下游应用,助力各行业智能化升级,实现智能算法应用的普适化。
(四)绿色低碳的发展格局加速形成
在“碳中和、碳达峰”目标背景下,建设技术先进、绿色低碳的智算中心成为践行绿色发展理念的大势所趋。
算力基础设施的能效指标更加严格具体。我国数据中心总体上还处于小而散的粗放建设阶段,大型、超大型数据中心占比不高。据统计,2021年度全国数据中心PUE为1.49,有相当数量的数据中心PUE超过1.8甚至2.0。为约束大型算力基础设施的能效,国家发改委、科技部、工信部、国家能源局等多部门陆续出台文件,对新建大型、超大型数据中心的PUE要求已从2017年的1.5降至2021年的1.3以下,国家枢纽节点PUE更是要求进一步降到1.25以下。“东数西 算”工程要求东部地区PUE目标不超过1.25,西部地区不超过1.2,能效指标更加严格。
节能降耗的先进技术成为发展重点。智算中心具有高功率密度属性,随着服务器主流芯片的功耗不断增长,用于AI训练的机器单机柜功率密度将大幅增加,传统的风冷模式已无法满足智算中心的制冷散热需求,液冷技术的应用为智算中心绿色化运转提供了解决思路。液冷是指借助高比热容的液体作为热量传输介质满足服务器等IT设备散热需求的一种冷却方式,比传统风冷具备更强的冷却能力,其冷却力是空气的1,000-3,000倍,热传导能力是空气的25倍。同等散热时,液冷系统相比传统风冷系统约节电30%-50%,数据中心PUE值可降至1.2以下,甚至趋于1。