高性能计算也称超级计算、HPC,本人在这个行业待了也有十年了,和热闹的手机、个人计算机行业相比,高性能计算是个冷僻的行业,长期以来远离公众视野,鲜为人知。只是这些年因为云计算、超级计算机时常出现在各种媒体上,才慢慢浮出水面。今天就和诸位来谈谈高性能计算的发展历史。

 

  现在大家对高性能计算普遍的划代,旁支不算,大致分为这样四个阶段:向量机、SMP、MPP、集群。

  上世纪七十年代,美国的克雷机开启了高性能计算的先河。这是那个时代的超级计算机,一经推出就大受追捧,先后被美国能源部、国防部、波音、美孚石油采购。到了八十年代,我国也推出了自己的向量机:银河1号,用来计算核爆、流体力学、石油开采等一些亟待解决又高度保密的课题。现在银河1号向量机已经退役,曾经在北京的军事博物馆展出过,不知道现在还在不在。

  向量机虽然计算性能强大,但是它的缺点也十分明显,就是所有软硬件都需要专门设计定制,与市场上大量销售的软硬件不兼容,这使得向量机的价格非常昂贵,也只有政府和大公司这种不在乎成本的部门才用得起,很难做到普及。这个缺点严重制约了向量机的发展。所以当时有人为了降低成本,把目标转向通用的软硬件设备,于是SMP就此诞生。

  SMP中文翻译是”对称多处理”。它是在计算机里安装多块处理器,共享内存和数据总线来提高计算性能。我们现在的手机、平板、PC使用的多核CPU其实也是SMP架构,区别是以前的处理器会安装在主板的多个基座上,由总线连接;现在是把多块处理器在生产时就封装到一起,插在一个基座上。

  由于SMP技术难度低、计算能力提升明显、性价比高、市场需求大,能够兼容当时大多数软件,所以当年很多个人电脑厂商也生产SMP架构的服务器,比如当年Compaq、HP、IBM一众行业大佬,都是生产SMP服务器的主力军。

  SMP架构通过增加处理器数量,结合软件提升计算性能,但是它需要共享内存和数据总线,运行过程中存在物理资源竞用的问题,限制了性能发挥,属于“并行计算+串行IO”方案,而且SMP架构能够增加的处理器数量十分有限,也制约了SMP架构的发展。后来人们为了追求更强大的计算能力,便推出MPP架构。

  MPP中文名称是”大规模并行处理”。这种架构相比SMP,取消了共享内存和数据总线,把每台计算机做一个独立的节点单元来对待,节点之间用专用的高速网络连接,通过软件协同完成共同的任务,属于纯粹的无共享架构(Share Nothing)。MPP一般都是IT巨头的定制机,它的硬件代表是刀片机,软件代表是分布式数据库,比如GreenPlum、Teradata都属于MPP架构。

  MPP架构相比SMP架构,性能虽然有了大幅提升,但是缺点也更多,比如对硬件设备要求高,产品价格贵,扩展能力不足,需要专门的软件来支持(开发MPP软件是远比MPP硬件更复杂的事)。所以它仍然是那些不在乎成本的IT巨头和垄断部门的专属玩物。实际这些年来,MPP之所以没有发展,这些制约缺点是主要原因。

  但是人们对高性能计算的追求是无止境的,为了获得更强大的计算效果,我们现在实际上已经来到了第四个阶段:集群。

  现在的计算机集群可说是这些年IT新技术发展的综合体和集大成者。它除了继续沿用MPP节点的概念,还大量借鉴采用互联网衍生出来的各种基础技术。比如普遍采用通用硬件来降低设计和采购成本;采取“软件定义硬件”策略,把原本属于硬件的功能转移到软件来解决,而且还便于升级。使用统一的协议支持异构计算平台,允许动态增加减少计算节点,通过”硬件冗余+软件容错“解决硬件运行过程中出现的问题。所以现在计算机集群即实现了超强的扩展能力,又能够保证足够的经济性。

  另外,与前几次主要面向专业领域不同,当前集群的发展方向已经转向了商用领域,这是非常广大的市场,有着巨大的商业利益,最典型的就是云计算。它面向商业用户,更多强调经济性和使用成本,使用虚拟化技术支持多租户共享,普遍采用按时付费的支付模式,能够根据用户需求分配云端资源。集群架构另一个主要领域是超级计算机,当前世界上主要的超级计算机,比如我国的“神威”、“天河3”,美国的“泰坦”、“Summit”,日本的“京”,都属于集群架构。而且云计算和超级计算机也正在融合中,现在一种叫“超算云”的共享计算模式正在各大云平台中形成。

  说完硬件,再说软件。由于建立在集群架构之上的业务需求、市场生态已经发生了根本变化,基于早期几种架构研发的软件很难发挥出集群的性能。据我所知,现在有几家ICT巨头看好集群业务带来的商机,正在投入巨资研发通用的集群系统软件,希望一举拿下这个蓝海市场。这有点象移动互联网刚刚开始的时候,苹果推出IPhone手机后,需要再推出iOS操作系统来适配IPhone手机。另外在超算领域,超级计算机做为国家综合科技实力的具体表现,与各国基础科研密切相关,将带动一大批产业发展,也都在加大对超算和超算软件的研发投入。所以现在无论是企业还是政府,都是一副百舸争流的状态,希望通过集群操作系统进一步巩固各自的优势地位,拿到下一场技术革命的门票。

  在这方面,LAXCUS集群操作系统无疑是走在了前面,它属于原生的分布式操作系统,完全基于集群架构和云环境设计,支持超大规模的分布存储和分布计算。说几个硬件指标,大家感受一下。

  1. 集成了云端所有刚需:虚拟化、安全管理、大数据、数据库、人工智能、应用容器、分布式应用软件。
  2. 对于分布式处理,能够云端、边缘端、终端一体化分布协同,无缝对接。
  3. 对于节点的支持,可以是几台服务器到几十万台服务器。
  4. 对于在线的用户人数,可以是几个人到几千万人在线。
  5. 对于数据处理,支持OLAP、OLTP、SQL,数据可以从几个G到EB级别。
  6. 对于应用软件,可以是几个软件到几百万个应用软件在云端运行。
  7. 对于应用开发,提供人工智能接口、大数据接口、分布式编程接口。开发者可以象开发单机软件一样开发分布式软件。

  最后说几句,一个不争的事实是,目前无论云计算、超算,还是集群软件,仍然是美国最强,我国处于追赶地位。由于集群硬件基本构型已经完成,现在各国发力竞争的主要是集群软件,尤其是集群操作系统这样的通用基础软件。美国曾经通过PC操作系统、手机操作系统获得在个人电脑、手机领域的决对优势,巩固了全球领导地位,进而影响全世界,直到现在。现在集群操作系统类似于当年iOS登场的时候,集群操作系统将决定我国未来二三十年在云计算、大数据、人工智能的生态市场和领导地位。

  对于中国,这是一场不能输的战争。

  前方道路依然漫长,在此与各位共勉!

posted on 2021-04-16 14:49  laxcus  阅读(1196)  评论(0编辑  收藏  举报