如何计算数据中心算力与算效
一、算力的定义
算力(CP,ComputationaPower)即数据中心的计算能力。指数据中心的服务器通过对数据进行处理后实现结果输出的一种能力,是衡量数据中心计算能力的一个综合指标,数值越大代表综合计算能力越强。算力应是数据中心内所有服务器的算力加和,
二、算力的分类
算力(CP)的核心要素包括通用算力(即CP-Nomal,简写CPN)和智能算力(即CP-Tuto,简写CPT)。通用算力是指数据中心服务器仅包含CPU的算力。智能算力是指数据中心服务器不仅包含CPU,也包含GPU或AI芯片的算力。因此数据中心的算力(CP):
三、算力的单位与精度
算力(CP)最常用的单位是FLOPS(Floatimng point OperationsPer Secnd,每秒浮点运算次数)。事实上,FLOPS已成为各种设施(如计算机、超算机、服务器等)衡量计算性能的代名词。FLOPS是一个基本单位,它的更大的数值单位有K(千)、M(兆)、G(吉)、T(太)、P(拍)、E(艾)。
表1 算力常见单位
算力精度不同,实际算力水平差别巨大。如果因此衡量算力水平,单一采用运算次数指标是不够的,还应考虑算力精度。
根据参与运算数据精度的不同,可把算力分为:双精度算力(64位,FP64)、单精度算力(32位,FP32)、半精度算力(16位,FP16)及整型算力(INT8、INT4)。数字位数越高,意味着精度越高、可支持的运算复杂程度越高、适配应用场景越广。
表2 算力精度适用场景
但是一般情况下,算力规模测算时统一折算为单精度浮点数(FP32)算力进行统计。
四、算力(CP)的计算方法
通过上面我们知道算力是通过数据中心内所有服务器的算力加和来统计的。如果我们仅知道IT电力容量时,怎么去估算数据中心(智算中心)的算力呢?
首先我们应选定一款AI服务器,查看它的用电功率。以H100 GPU 服务器为例:CPU耗电约300W*2,内存16根耗电约 250W,硬盘6块盘约200W,风扇耗电约150W,H100GPU卡耗电约700W*8,按理论计算最大耗电量约为6800W。而以H100模组整机服务器满配的情况下,单台约功率约10kW。例如数据中心的IT总容量为8000kW,计算服务器台数:
从上公式,计算出本数据中心可布置800台H100 GPU 服务器。然后计算服务器的GPU算力。
表3 H100 SXM算力参数
通过上表查出,H100 GPU单卡算力为67TFLOPS,单台服务器共有8张GPU卡。在忽略CPU算力的情况下,可计算出数据中心中心的算力规模为:
由上公式,可以算出428,800TFLOPS(半精度FP32),即428.8PFLOPS(半精度FP32)。一般情况下,建议在后面加上算力精度,避免产生歧义。
五、算效(CP)的计算方法
算效(CE,ComputationalEmciency)是指数据中心算力与功率的比值,即“数据中心每瓦功率所产生的算力”,是同时考虑数据中心计算性能与功率的种效率。数值越大,代表单位功率的算力越强,效能越高。若CP为以单精度浮点数(FP32)的数据中心的算力,PC为数据中心IT设备的整体功率,其单位为瓦(W),则算效CE的计算公式为:
再以上面的数据中心为例,代入算力428,800TFLOPS(半精度FP32)与IT总容量8000kW进行计算:
计算出数据中心的算效为5350FLOPS/W。