HPC+时代,携手亚马逊云科技,共赴数字化升级的星辰大海!
高性能计算(HPC)和云计算曾是两个“平行世界”,各自演绎着精彩,却鲜有交集。
传统上,HPC主要应用于大规模计算,如天气预报、石油勘探、药物研发等。这些任务通常借助超级计算机或计算集群运行,需要很多特殊的软硬件来加速节点间通讯并提升性能和可靠性,自成一统的同时也阻碍了拥抱新技术、新平台的步伐。
云计算在诞生初期掀起了虚拟化的浪潮,甚至尝试过与HPC亲密接触,但终因性能损耗和网络延时而失之交臂。伴随亚马逊等云平台的迅猛发展,通用计算领域几乎已变成云的天下,千行百业都在基于云底座进行数字化转型。迈向纵深的云计算与下落凡尘的HPC,有望再续前缘。
值得关注的是,外部环境发生的剧烈变化,也促使“平行世界”之间的相互穿越成为可能。
一方面,数字经济的高速发展带来数据规模的几何级数增长,随之而来的算力需求也大幅增加。既有的高性能计算集群或超级计算中心模式,已很难满足爆发性的需求和多元化的场景,HPC必须谋求崭新的演进路径。
另一方面,人工智能的快速渗透与新型硬件的风起云涌,使云计算如虎添翼。机器学习、深度学习极大拓展了业务应用范畴,推动智能化与高性能紧密结合。
正所谓“歇马凭云宿,扬帆截海行”——HPC在踌躇谋变之际,恰好遇到处于上升期的云计算,和人工智能、加速计算等提供助力的“小伙伴”,他们组成强大的HPC+阵营,共赴数字化升级的星辰大海。
这不是纸上谈兵,重要的是付诸行动。近日,亚马逊云科技举办“云启赋新 高性能计算业务创新论坛”(点击链接观看视频回放),与来自不同行业的专家共同探索“HPC +”时代如何为客户赋能,帮助他们加速创新。
行业领导者的率先垂范,是HPC+扬帆起航的标志性信号。云上的澎湃算力,将为客户解决运行大型复杂模拟和深度学习工作负载的难题,高性能计算会继续乘风破浪。
云计算驱动HPC开疆扩土
Hyperion Research市场调研的数据显示,到2022年底将有18.8%的HPC在云端运行,而这个数据在2021年只有12.3%。
来自Market Research Future的报告也表明,云端高性能计算在未来五年会保持21%的年复合增长率,2023年的市场规模将达220亿美元。
显而易见,HPC与云的深度融合正在提速,这既是客户应对业务挑战的必然结果,又与高性能计算本身的进化密切相关。
从客户需求的角度看,本地高性能计算基础设施限制了工程师、科学家和研究人员及时获得成果,约有72.8%的组织表示高性能计算工作遭到延迟或取消。这将导致很多客户错失创新的窗口期,收入预期自然难以达成。
路径依赖造成的成本负担与技术压力也不容忽视。客户在建设与运营自有数据中心的过程中,总是在高峰期的捉襟见肘与日常的浪费闲置之间痛苦摇摆。通过采用新算法适应原有基础设设施的做法,难免以牺牲部分性能为代价,综合评估得不偿失。
如果把视野再放大一些,会发现HPC早就不局限于原来的“一亩三分地”,应用场景的显著扩展也促使基础设施向云底座跃迁。
在计算机辅助工程与流体力学、天气及气候预报、地震反演和储层预测、新药发现和基因检测等传统优势领域,HPC要应对超大规模计算带来的技术架构与投入产出比挑战;面对金融量化交易风控模型、电子芯片设计EDA、数字孪生、自动驾驶、影视渲染乃至量子计算等新场景,HPC必须融入各个行业数字化转型的进程,满足层出不穷的差异化需求。
图:点击观看视频
以竞争激烈的美洲杯帆船赛为例(参见视频):像素分割模拟计算对帆船竞赛将产生决定性影响——把船分成的像素越多,模型就越精确,但这意味着计算量成倍地飙升,此时云计算的价值就会凸显。从某种意义上讲,乘风破浪的动力不是风的力量,而是云的力量。
云的弹性、灵活性、可扩展性等先天禀赋正是HPC化解难题的良方,后天形成的市场渗透力及其与人工智能、加速计算等新兴技术的协同效应,更为云与HPC携手同行奠定了坚实基础。
云上高性能计算的进化路径
作为云平台的开创者与领路人,亚马逊云科技在高性能计算领域屡创佳绩,连续四年入选HPC连线杂志“最佳HPC云平台”,并在2021 CCF年会上获得高性能计算实例产品创新大奖。
目前,在全球高性能计算转向云平台的过程中,约有58%的高性能计算云端计算量处于亚马逊云科技平台上。依托领先的前瞻性研究、成熟的服务体系和扎实的落地案例,亚马逊云科技探索出云与HPC融合的最佳路径,并根据市场环境变化不断演进。
亚马逊云科技大中华区产品部总经理陈晓建认为,构建HPC云上服务并非堆砌服务器资源那么简单,背后是完整的HPC生态系统。
以亚马逊云科技建立的完整堆栈的HPC服务模式为例:
底部的基础层涵盖算力资源、高速网络和存储,构成整个体系的基石。亚马逊云科技500+不同类型的服务器组合满足各类复杂场景需求,提供100G以上带宽吞吐、支持MPI的EFA网卡使网络不再是高性能计算的瓶颈,支撑高性能计算且在云端实现多级的文件存储策略,进一步帮助客户提升资源利用效率。
中间的控制层是HPC生态系统的大脑,主要涉及集群创建和任务编排——亚马逊云科技提供了各种性能、功能的产品,为不同场景的客户带来价值;最上层的可视化致力于营造易用的环境,亚马逊云科技基于NICE DCV方案可在极低的网络吞吐量前提下,提供高分辨率、低延迟的用户体验。
需要指出的是,HPC生态不是存在于一个岁月静好的稳定环境,而是要随时应对大系统的变迁与小场景的打磨。在混合云日益盛行的背景下,公有云平台需要推出更有针对性的策略,才能立于不败之地。
基于NICE Enginframe server+Amazon HPC Connector中间件,亚马逊云科技帮助客户在混合云架构下,实现本地数据中心与云上资源的平滑切换,并根据不同场景提供适宜的解决方案:
应对突发任务上云,当客户的本地数据中心无法支撑任务时,可无缝访问亚马技云科技的充足资源;针对缺乏上云经验的客户,通过HPC混合云逐步、分批地帮助客户使用相关资源;对于决定工作迁移的客户,以统一的控制台有计划、大规模地将 HPC任务跨本地数据中心和云上环境部署。
以更长远的眼光来看,量子计算是未来算力增量的源泉。亚马逊云科技不仅拥有Braket这样的商业化产品,而且面向量子计算构筑起多层次的服务体系,在化学及材料科学、城市交通优化等场景取得积极进展。
首先,亚马逊云科技打破量子计算技术壁垒,建立完全托管的服务模式,便于客户快捷地探索和试验;其次,提供专家级的支持,客户可与亚马逊量子实验室进行深度合作;再次,基于量子计算中心在量子算法和硬件等方面做创新研究,寻求通往未来的算力密码。
HPC+催生场景化创新
《美国创新史》的作者Harold Evans发现,由借鉴和结合产生的创新多于纯粹的发明,洞察事物间相互关联性的能力比创造力更重要。
以前定义HPC工作负载的方法,通常是根据高性能计算任务是松耦合型还是紧耦合型,更看重网络带宽和延迟需求,同时会从HPC任务涉及的数据规模来考量。
但最近两年,亚马逊云科技发现,随着硬件技术的创新,以及人工智能的迅猛发展,越来越多的HPC任务和AI、ML、DL相结合。这就要求为客户提供相对应的方案,也由此催生出HPC+的概念——从更广泛的维度,包括加速计算、机器学习、深度学习等多方面去设计服务和构建方案。
伴随HPC的重量级伙伴逐渐增多,围绕HPC+的场景化创新正纷至沓来,亚马逊云科技在其间扮演着举足轻重的角色。
助力影视渲染行业转型,是HPC+展示身手的新舞台。内容制作需要超大规模渲染算力,从传统的CPU渲染升级为GPU渲染可加速制作进程,深度学习自动生成形状、材质、光照及场景能提供增强型的观看体验——三者分别对应云、加速计算、人工智能,HPC+的好伙伴,一个也不能少。
以多部史诗级作品著称的影视制作巨头Weta Digital即是典型案例。十几年前,《阿凡达1》基于Weta Digital自己的数据中心完成制作;从2020年起,由亚马逊云科技为其提供大规模渲染集群、云上工作室方案、机器学习堆栈等服务支撑,显著提升制作效率与渲染效果,即将瓜熟蒂落的《阿凡达2》值得期待。
辅助创新药物和疫苗研发,也是HPC+擅长的领域。靶点的选择和确认、化合物的发现与优化、临床研究、真实世界分析等都离不开各方的协同发力。亚马逊云科技和药明康德在用药机理上合作,借助图神经网络技术将建模时间缩短5倍;与晶泰科技在分析发现上也取得突破,不仅计算出最稳定的晶体结构,而且得到其全景图,为后续药物研发筑牢根基。
此外,在自动驾驶、流体仿真等场景,HPC+同样显现出不可或缺的作用,在海量数据存储与分析、从仿真结果中提取复杂关系等方面成果显著。据了解,亚马逊云科技已为国内外主流商用车、乘用车厂商提供与自动驾驶相关的服务支撑,在F1赛车、帆船竞技等流体仿真应用前沿亦屡有斩获。
未来,HPC+的阵容必将持续发展壮大。那些曾经单打独斗的航船会组合成无坚不摧的航空母舰,驶向数字化海洋的最深处。
2022亚马逊云科技中国峰会现已开启报名,请点击链接或者扫描下图海报中的二维码进入神奇的旅程。
来源:IT创事记