气象气候应用在 Intel 最新处理器 Icelake 上的性能测评

浪潮HPC实验室

一、Intel第三代至强可扩展处理器(Icelake)性能大升级

Intel于今年发布了第三代至强可扩展处理器系列产品(代号Ice Lake),与上一代至强可扩展处理器系列产品(代号Cascade Lake)相比,第三代至强可扩展处理器的改变是从里到外的,其主要升级点包括:

(1)制造工艺从14nm升级到了10nm,理论晶体管密度提升了2.7倍;

(2)微架构升级,IPC大幅提升20%;

(3)最高核心数从之前的28核提升到了40核,AVX2/AVX512指令集持续优化,L3缓存也从每核1.375MB增加到了1.5MB;

(4)IO性能获得大幅提升,内存从6通道升级到了8通道,改善内存访问延迟。PCIE协议也从之前的PCIe 3.0升级到了PCIe 4.0。此外,UPI总线带宽也有小幅的提升。

这些硬件性能的提升是否也会对应用的性能起到正面的促进作用呢?特别是针对气象气候这类需要大量的CPU核做大规模并行计算才能完成任务的应用。我们知道,一般气象气候类应用的BF Ratio都比较高,即气象气候类应用的性能非常依赖于内存带宽,以及浮点计算能力。因此,对于气象气候领域的应用而言,第三代至强可扩展处理器这些升级无疑是让人充满惊喜和期待的,尤其是其AVX指令集的优化带来的浮点计算速度的提升和内存通道的增加带来的内存带宽的释放。那么第三代至强可扩展处理器对于气象气候应用的性能提升相对于Intel 之前的处理器到底怎么样呢?在此我们选取气象气候领域常用的几个天气预报和气候预报模式,包括WRF中尺度天气预报模式、MPAS-A跨尺度大气模式、CESM地球系统模式进行了评测分析。

在下面的测试对比中,我们针对不同的应用,在浪潮的HPC实验室里面构建了测试环境,计算节点分别使用了第二代至强可扩展处理器系列中的6230、6248、以及6258R等三款处理器;第三代至强可扩展处理器系列中的8358处理器,来做对比分析。

二、中尺度预报模式WRF性能对比

WRF简介

中尺度预报模式 WRF(Weather Research and Forecasting model)是由美国大气研究中心(NCAR)、美国大气海洋局(NOAA)和美国空间气象局(AFWA)等共同开发的。 WRF 模式可用于数值天气预报的研究与业务化、物理参数化方案研究、数据同化、驱动空气质量模式、中小尺度气候模拟以及海洋大气模式的耦合等。

WRF测试算例

表1给出了 WRF 算例的网格范围和计算规模。模拟区域为两层嵌套,空间分辨率分别为 12km 和 4km,水平方向格点数分别为 425300 和 1150802,时间步长为 30s 和 10s,垂直方向均为 35 层。预报时间为 3h。模式每 3h 输出一次数据。

嵌套层数 2
预报时间 3 h
水平网格数 425300、1150802
垂直网格数 35
水平网格分辨率 12 km、4 km
积分步长 30 s、10 s
输出频率 3 h

表1 WRF算例的时间和网格设置

WRF性能测试结果

我们分别在6230处理器平台和8358处理器平台上测试了WRF使用224核运行时的性能。WRF算例在6230处理器平台的运行时间为695 s,在8358处理器平台的运行时间为489 s,与6230处理器平台相比,WRF在8358处理器平台性能提升42%(图1)。这主要是因为WRF为计算密集型和内存带宽限制型应用,得益于第三代至强可扩展处理器架构的八内存通道设计,使内存带宽得以释放。此外浮点计算速度的增加以及低延迟的内存访问,使得在8358处理器平台上运行 WRF,性能会有很大的提升。

6230处理器平台和8358处理器平台WRF性能对比

图1 6230处理器平台和8358处理器平台WRF性能对比

三、跨尺度预报模式MPAS-A性能对比

MPAS-A简介

MPASA (Model for Prediction Across ScalesAtmosphere)模式是由美国国家大气研究中心(NCAR)主导研发的全球非静力平衡的跨尺度预测模式。该模式采用非结构质心 Voronoi 多边形网格和 ArakawaC 离散化方案。非结构化网格避免了结构经纬度网格中两极的奇异点和极区网格过密的问题。另外, MPASA 可由低分辨率区域较为平滑地过渡到高分辨率区域,使得模拟关键区域有较高分辨率同时还避免了边界处物理量的突变。

MPAS-A测试算例

在我们的测试中,MPAS-A算例使用的是全球60 km分辨率网格(图2),积分步长为360 s,预报时间为2 h。

MPAS-A非结构网格

图2 MPAS-A非结构网格

MPAS-A性能测试结果

我们分别在6230处理器平台和8358处理器平台上测试了MPAS-A使用320核运行时的性能。MPAS-A算例在6230处理器平台运行时间为26.5 s,在8358处理器平台运行时间为15.5 s,与6230处理器平台相比,MPAS-A在8358处理器平台上的性能提升了71%(图3)。MPAS-A与WRF相似,也是内存带宽限制型应用。因此8358处理器内存通道的增加也有助于提升MPAS-A的性能。

图4为MPAS-A算例在6230处理器平台和8358处理器平台运行时单计算节点内的实时浮点计算速度和内存带宽对比。从图中可以看出,与在6230处理器平台相比,MPAS-A在8358处理器平台上的浮点计算速度和内存带宽都大幅提升,从而使得在8358处理器平台上的MPAS-A性能大幅提升。另外,从BF Ratio来看,在6230处理器平台MPAS-A的BF Ratio值约为2.55,而在8358处理器平台MPAS-A的BF Ratio值约为2.40。这与6230处理器平台相比BF Ratio值略有下降,其中的原因主要是与8358处理器平台每核心L3缓存增加从而降低了LLC miss率有关。

6230处理器平台和8358处理器平台MPAS-A性能对比

图3 6230处理器平台和8358处理器平台MPAS-A性能对比

MPAS-A算例在6230处理器平台和8358处理器平台运行时单计算节点内的实时浮点计算速度和内存带宽对比

图4 MPAS-A算例在6230处理器平台和8358处理器平台运行时单计算节点内的实时浮点计算速度和内存带宽对比

四、地球气候系统模式CESM性能对比

CESM简介

CESM由美国国家科学基金会和美国能源部支持开发,由国家大气研究中心的气候和全球动力实验室维护的一个气候系统模式。CESM由模拟地球大气,海洋,陆地,陆冰、海冰、径流和波浪7种子模块组成,中间通过一个耦合器连接,用来模拟地球的过去,现在和未来的气候状态。

CESM测试算例

在本次测试中,CESM所使用的算例为全耦合模式,网格是f19_g16,预报时间为1年。

大气模块 陆地模块 海洋模块 海冰模块 陆冰模块 径流模块 波浪模块 耦合器
子模块 cam clm pop cice sglc rtm swav cpl
工作状态 active active active active stub active stub active
水平网格 1.9*2.5 1.9*2.5 gx1v6 gx1v6 null r05 null null

表2 f19_g16算例各模块状态及分辨率

CESM性能测试结果

我们选取第三代至强可扩展处理器8358,并在由其构建的HPC集群上对CESM进行了测试和优化。与第二代至强可扩展处理器系列相比,CESM在8358处理器平台上有了较大的性能提升。单节点性能提升分别为94.1%(6230处理器)、82.7%(6248处理器)和64.5%(6258R处理器)。这主要是因为CESM的BF Ratio接近1,内存带宽不受限制,且应用主要受限于IO和通信的影响,故性能提升不能达到理想的线性提升,会有一定的降低,但也可以达到82.7%(6248处理器)和94.1%(6230处理器)。

不同处理器平台下的CESM性能对比

图5 不同处理器平台下的CESM性能对比

五、测评总结

结合Intel 今年新发布的第三代至强可扩展处理器(Icelake)的内存通道增加,以及AVX2/AVX512指令集的进一步优化等种种令人惊喜的升级,和气象气候领域应用高BF Ratio的特点,我们在第三代至强可扩展处理器8358构建的HPC集群上对几种常用气象气候应用包括WRF、MPAS-A、以及CESM进行了测试分析,并与Intel之前的第二代至强可扩展处理器进行了对比。从性能来看,使用相同核数时,与在Cascadelake 6230处理器平台相比,在Icelake 8358处理器平台WRF性能提升42%,MPAS-A性能提升71%。这主要是因为WRF为计算密集型和内存带宽限制型应用、MPAS-A为内存带宽限制型应用。正是得益于Icelake的八内存通道设计,使得内存带宽得以释放,此外浮点计算速度的提升以及低延迟的内存访问,促使在8358处理器平台上WRF和MPAS-A的性能都获得了大幅提升。而对于气候模式CESM,内存带宽不受限制,但同样得益于Icelake的内存带宽和浮点计算速度的大幅提升,性能更是分别提升了82.7%(6248处理器)和94.1%(6230处理器)。

posted @ 2021-09-18 11:20  博客园团队  阅读(730)  评论(1编辑  收藏  举报