阿里云为啥不用神威太湖之光这样的超算来做服务器!两者结合岂不是强强联手?

 

谢谢您的问题。阿里巴巴的飞天大数据平台其实已经发挥了关键的作用。

与马云和王坚的坚持有关。当年阿里巴巴平台商家数量大幅增加,海量数据也随诞生,阿里巴巴需要一个数据平台支撑,开展数据存储和计算。阿里巴巴内部激烈讨论,决定不用开源数据计算框架Hadoop,自主研发飞天大数据平台,其本质就是包含上万台服务器的超级计算机,为行业提供公共服务。阿里云飞天大数据平台是全球规模最大的计算平台,能够支撑10万台服务器的计算集群。王坚之所以今天会评为中国工程院的院士,重要原因在于他是中国唯一云计算操作系统的提出者,设计者和建设者,与马云的支持也密不可分。

飞天大数据发挥重要作用。阿里云的数据存储主要是神龙架构、数据库POLARDB、OceanBase,运算与调度主要就依靠飞天大数据、达摩院AI平台。我们在“双十一”时感觉购物速度与体验不错,淘宝天猫会主动推送我们感兴趣的商品,物流的调度和送达也比较给力,其背后都是大数据和AI的作用。飞天大数据平台还可以在民生和智慧城市建设中发挥重要作用。

超级计算也需要商用落地。“神威·太湖之光”是一台超级计算机,也是一个超算服务项目,更是一个连接企业、科研院所超算中心资源的计算平台。“神威·太湖之光”需要与产业融合,为产业提供解决方案,目前已正在和医药研发等行业探索合同,在物联网产业有巨大的应用潜力。阿里巴巴现在的运算能力最适合自己,但是今后业务突然有可能会与超算“神威·太湖之光”产生链接,特别是阿里巴巴的研发领域。阿里巴巴等企业接入超算,可以量身打造定制中小型的“神威”超算,对于一个企业来说已经足够了。

 

    阿里云和超算是不同的,打个比方超算相当于F1赛车,那么云计算就是公共汽车

    前者追求性能,追求顶尖的速度,后者追求弹性的空间。

    换句话说,超算追求的是计算力并行的紧耦合,把一个任务做到了极致,云计算追求的是计算力分布的松耦合,把池化资源的平均利用率做到最高。

 

    通用 vs 专用

    云计算是一项通用技术,是共享经济在计算领域的演进,适合所有需要信息技术支撑的场景,比如12306购票系统就部署在阿里云,还有众多的中小型企业的服务器也部署在阿里云。

    超算则是为国家高科技领域和尖端技术研究提供的运算能力和存储容量,用于航天、气象预测、国防、基因组测序、石油勘探等领域,比如美国的红衫超级计算机当初设计出来就是为了模拟核试验,米拉超算用于研究星体爆炸、气候变化等。

 

    分布 vs 并行

    阿里云具有分布式的特点,计算资源分布在全国各地的阿里机房,通过阿里的飞天系统,实现硬件资源的统筹协调,运行的任务也是分布式的。

    超算集群在地理环境上是集中式的,主要针对计算密集的任务,强调并行计算能力,用于获得高性能,节点之间的数据交换对于延迟要求非常高。

    成本 vs 性能

    阿里云等云计算式规模经济,要考虑到成本,通常采用x86硬件搭建,根据需求可以随时扩展运算能力、存储能力,可用性、可靠性、扩展性通过软件实现。

    超算得花大笔的钱用于堆积计算能力和存储能力,采用了加速芯片、infiiband通信(区别于tcp/ip通信)、高级文件系统等,而且能源消耗也非常高。

 

    总之,超算和云计算式不同维度的概念,超算追求性能,云计算关注服务,一个面向科学计算,一个面向大众企业应用。

 

你可能想不到,李彦宏落选了民营院士,反而阿里巴巴王坚却当选为中国工程院院士。你可能会觉得,王坚能够当选众望所归,但是李彦宏你可能觉得有点“不符合”。我为什么提到王坚呢?原因很简单,因为他创立了世界第三的阿里云。

我们现在说说,今年的双十一的时候,虽然没有具体提到阿里云的服务器到底是谁?但是,在2018年,我们看到了神龙服务器的影子。这款服务器的诞生,也就是为什么阿里巴巴和神威太湖之光等进行配合。

我们知道,神龙服务器是由“X-Dragon虚拟化芯片”,“ X-Dragon Hypervisor系统软件”、以及“X-Dragon服务器硬件架构”三个部分组成。

2017年10月,融合物理机和虚拟机特性的“跨界”云服务器发布,这款服务器融合了物理机与云服务器的特点,并且能够实现超强、超稳的计算能力。

其实,这款处理器是专门为云服务的,它能够为阿里云产品提供存储,网络等等多项功能。并且阿里巴巴还提供基于神龙云服务器的超级计算集群。所以,阿里云不需要和太湖之光进行合作,这可能就是阿里云的野心。

 

问题:阿里云为啥不用神威太湖之光这样的超算来做服务器!两者结合岂不是强强联手?

回答:神威太湖之光是国家资产,这是超级计算机,用来科研等用户;阿里是私营企业,想要服务器,自己做或者是自己买。而且阿里本身的云计算和服务器都很厉害的。

 

超级计算机

神威太湖之光这样的超算是国家资产,这是跟归属于国家的,用来做科研的工作。这里的科研涉及到天气模拟,自然灾害模拟等,还可以用来药物研发甚至武器的效果预计等。

超算本身也是很忙的,很多科研项目排着队去运算的。这些科研项目都非常重要,对于国家的科技发展都很重要。甚至一些是军工的,这些跟国家安全相关,优先度是很高的。

而且,这是用来计算的,而不是用来存的,跟服务器的技术路线根本不一样的。

所以,你们这些用超算来做游戏机或者是服务器的想法可以歇一歇了。

阿里的服务器也很强的

阿里本身的服务器和运算架构都是很强的,阿里采用了神龙服务器、神龙架构等,可以说阿里的实力也是很强的。

以前的双十一都是会崩崩合合好几轮的,现在的服务器基本上不会崩了,有时候可能会等十来秒,但是已经不会好像以前一样因为大量数据涌入导致服务器崩溃的了。

同时,阿里云在国内很强,是云计算市场数一数二的玩家,技术实力相当强。

阿里的服务器和云计算业务本身提供的云服务还有计算的服务,不追求很高的计算能力,而是提供一个稳定的技术环境。不过阿里云的技术相当强,也能够应对双十一这种流量高峰。

所以阿里根本不需要神威太湖之光,技术路线不一样,同时也不能占用国家的资源。

 

阿里云在研发的时候还属于云计算在国内比较模糊的阶段,百度和腾讯公司已经明确不会在上面加大投入,但是马云每年拿出10个亿来支持阿里云的研发,阿里云的主要负责人王坚在早期承受了非常大的压力,甚至有一年在年会上落泪,现在的阿里云已经成功了所有之前的付出放在今天看是非常成功的,王坚现在已经被评选为院士,今年的双11已经全部部署到阿里云系统上。

阿里云是马云早期非常大的一个手笔,在阿里云取得阶段性的成功之后,尝到自主研发甜头之后马云力主成了达摩院,虽然达摩院成立的时间不长,但已经陆续取得了很多的成绩,而且达摩院不拘泥于互联网行业,像平头哥AI芯片已经涉足到硬件领域了,有点马云的意思不拘一格去突破,重视基础领域的研发,早在PC互联网时代百度是技术研发的代名词,现在明显已经被阿里巴巴取代,有了阿里云的支撑阿里巴巴在推进全国的智慧城市的发展,现在各地搞的数据整合很多功能都是阿里巴巴在做,背后离不开阿里云的强大支撑,几乎每年的双11阿里巴巴都出现过宕机情况,但今年用上阿里云之后已经得到了极大的改观。

阿里云属于云服务器,主要是作为阿里巴巴内部大脑,整体支撑着阿里巴巴平台的流畅的运行,由于云计算的存在甲骨文的数据库已经慢慢弱化,亚马逊走的更加极端,直接用云计算全部把甲骨文的数据库给取代了,云计算的产生已经对产业产生了很大的冲击,已经改变传统的格局。阿里巴巴现在市值上已经超过腾讯公司不少了,很大一部分原因就是阿里云在资本市场上提升作用。阿里云玩的就是云服务器,为了保证各个终端的良好的用户体验,更多采用分布式集群的方式,还是有别于国家的神威和太湖这种国之利器,毕竟神威太湖针对的单个计算机强大的处理运算能力,和阿里云商业化的云计算公司的思路不是很一致。

从理论上讲阿里云用上身为太湖这种利器不存在任何的问题,但是作为商业化运作的公司首先考虑是的成本,先不讲国之利器能不能用的事情,只是从商业角度上考虑用上如此巨大成本的神威太湖,对于商业公司来讲也是不合算,阿里云走的是另外一种路线,通过分布式集群方式解决,单个服务器的运算能力不足,就采用多个集成的方式来搞,平头哥搞的芯片也是针对阿里云功能的提升设计的,这种还能最大程度提升数据能力。

所以在理论上用上神威太湖会更加厉害,但是作为一个商业公司首先考虑是成本和收益,未来不排除两者联手的可能性至少从目前的角度还没这种迹象,从现实的角度出发还是以分布式集群为主,希望能帮到你。

 

阿里云为啥不用神威太湖之光这样的超算来做服务器!两者结合岂不是强强联手?这两者的应用有着不同的方向,阿里云提供的是大量数据的并发处理能力,能够在同一时间处理来自全球各地大量数据的能力。而神威太湖之光这样的超算主要应用于复杂而极限的计算处理能力。

阿里基于淘宝天猫等平台的数据处理能力,研发了众多的成果,其中比如为了应对淘宝天猫像双十一这样突然涌入的巨大数据流量,服务器是否能够支持巨量的冲击成为了阿里需要应对处理的任务。所以阿里采用了神龙架构、自研数据库、自研云操作系统、分布式服务器堆集集群的方式来应对这样的数据处理,以便能够及时快速而且准确的响应每一个入口请求。

而像神威太湖之光这样的超算,是属于国之重器,是各国追求角逐的科技制高点。在一台机器上堆集处理器的方式,来应对复杂并且可能极限的快速计算,其追求的主要是持续性的每秒运行能力。追求的不是宽度,而是高度。正是因为美国2015年对中国禁售高性能处理器,所以才逼出了中国的太湖之光。

 

神威太湖之光超级计算安装了40960个中国自主研发的“申威26010”64位自主申威指令的众核处理器,其峰值高达12.5亿亿次/每秒。在2019年11月18日全球超算500强中,名列第三位。

 

一个是服务器集群堆集,一个是单台机器的极限运算能力,两者的差异显而易见。对于像阿里云这样的企业,除了保证大量入口数据需要及时处理的能力,还需要保证所有入口数据得到保存,采用各地分布的服务器的方式是最为合适的,但数据的计算能力要求与超算不可同日而语。超算的极限运算能力比如应用在地球气候的复杂模拟计算、航天实验的计算和模拟、大规模分子动力学模拟等等。

 

阿里云是首先是以自己以前商用服务器通用模式为基础发展起来,必然要以适合自己的方式升级改造。

 

回答问题:阿里的任务没有必要用成本高昂的超级计算机。

据我粗浅的了解

超级计算机为了传输的低延迟,硬件层直接去协调分布式计算资源;云计算的分布式计算资源协调在软件层。

这就决定了两者用途的不同。

比如阿里的大量交易和百度的搜索任务,能很好的分配给不同的计算资源,通信次数很少(不代表通信量小),通信延迟不是整个计算时间里的重要部分,这就可以用云计算。

而天气预报这样的任务,虽然也可以分布式计算,但需要CPU之间大量的交互,就需要用超级计算机更合适。

当然两者的成本也不同。

我几年前听过一个学术会议,Google video早期的时候甚至大量采购二手民用电脑,来构建云计算,可想而知成本可以多低。

而超级计算机是专用架构专用硬件,成本太高。

 

因为架构不同。

阿里云的一部分应用场景是面向用户,而超算因为没有采用x86结构,所以程序的编写方式不同,对普通开发者并不方便。

而且超算的优势在于核心数量和内存资源都十分充足,因此可以快速处理大量任务,而在云平台的应用中,正在转变为由平台提供弹性解决方案的方式,上层开发者无需关心底层硬件情况,在这种场景下x86机器会更方便一点。

还有一点在于x86的成本比超算甚至小型机要低很多,更适合大规模部署。

 

超算的特长就是快是集中式,做云不一定合适。云,主要是分布式系统,用许多服务器构成更好。超算用来解决计算难题最好。

 

你好,我是科技音符,很荣幸回答你的问题

首先神威太湖之光是超级计算机,是专门用来计算大量数据,它自身拥有极大的数据存储容量和极快速的数据处理速度,专门用来处理某个领域计算量超级大的问题,比如军事武器的研究,天气的准确预报等等。

阿里云是云服务器,是把上千台普通服务器的计算机统筹起来,管理起来,把一个任务分配给集群里面的单位服务器进行运算处理?

简单说神威自身就好比钢铁侠,阿里云则像一个军队,就战斗力可能相近,但是系统运行方式完全不一样。

posted @ 2022-07-27 18:15  古锁阳关  阅读(703)  评论(0编辑  收藏  举报