服务器RAS性能
服务器RAS性能
转载自:https://www.cnblogs.com/quenby/p/5045865.html
服务器的安全性能要求非常高,主要体现在RAS性能上。RAS性能指的是机器的可靠性(Reliability)、可用性(Availability)和可服务性(Serviceability)。RAS能力主要看几个方面:System 级别的RAS特性、CPU RAS特性、内存RAS特性、I/O RAS特性等。可以看出,RAS性能是个综合性指标,对于不同行业用户而言,其对RAS性能的要求是不尽相同的。
CPU和内存的RAS性能尤其重要
服务器内存的RAS特性最为关键,因为服务器的所有计算机几乎都是跑在内存中的,内存的好坏决定了服务器是否能正常工作。例如有些HP服务器连续跑了二十年而没有停机一次,可以说程序不是寄存在服务器上,而是寄生在内存中的。根据 Google 与一些机构的合作研究表明,内存错误率其实比想象中的要高(refer),内存也因为老化等原因会出现性能降低,这是个很有参考价值的信息。据宝德客服人员反映,有些宝德服务器也连续跑了五年而从没有停过机,直到设备更新时查看工作记录才发现,程序运行起来后就从来没停过机。现在许多X86服务器销的卖点宣传也多集中在内存上,比如内存的 ECC 特性,Spare Row、Chip Kill、Single Device Data Correction (SDDC)等,其中Chip Kill是IBM的专利技术,主要用在高端服务器上。
CPU处理器的RAS性能也非常关键。英特尔早先推出的Xeon 7500系列处理器,将Xeon平台的可靠性、可用性和可维护性(RAS)带到新的高度,将原本只为RISC架构专属的诸如机器校验架构(Machine Check Architecture,MCA)等特性的移植,也使Xeon 7500平台在面向高端关键性业务应用时底气更足。Xeon 7500的推出,是Intel志在关键应用市场一展身手的重要一步。
最近英特尔更是推出了Xeon E7、XeonE5系列处理器,继承了许多大型机开发中验证过的RAS技术。通过所有CPU电路间的错误检测和恢复机制,避免CPU错误带来的系统故障。并可保证CPU内部的数据传输和存储的随机错误通过ECC 数据纠正处理和指令重试技术恢复。即使不可恢复的错误发生时,CPU也不会停止,只会继续记录所有的错误信息,因此任何错误原因都能迅速检测出来。Xeon E7以英特尔上一代Xeon 7500为基础,建立了面向诸多高端计算应用,包括商业智能、实时数据分析和虚拟化的全新标准。这些全新的处理器还提供高级安全特性,可确保更好的数据完整性,以巩固数据中心的安全防线。
RAS能力在不同行业侧重点也有不同
RAS能力是评判服务器的重要标准,但是由于RAS能力提升了服务器的制造成本,所以行业应用中,用户只关心自己最需要的那些RAS指标,而不是面面俱到地要求服务器各方面的RAS性能都非常拔尖。
可靠性(Reliability)在行业中的应用主要是双机热备份。虽然安腾小型机、高端服务器如PR4840R也有很高的稳定性,但是在一些关键应用中,还是有用户喜欢用双机热备的方式。双机热备份就是一台主机为工作机,另一台主机为备份机,在系统正常情况下,工作机为信息系统提供支持,备份机监视工作机的运行情况,工作机也同时监视备份机是否正常,有时备份机因某种原因出现异常,工作机可尽早通知系统管理工作人员解决,确保下一次切换的可靠性。当工作机出现异常,不能支持信息系统运营时,备份机主动接管工作机的工作,继续支持信息的运营,从而保证信息系统能够不间断地运行。当工作机经过维修恢复正常后,它会将其先前的工作自动抓回,恢复以前正常时的工作状态。
象金融、电力、医疗等行业,因为对计算可靠性要求非常高,所以习惯采用这种双机热备的方式。如广州电力使用的基于宝德安腾小型机搭建的电力调度自动化系统,具有高稳定、高可用、高性价比特点。其电力数据采集与监视控制系统(SCADA, Supervisory Control And Data Acquisition)、数据库(Oracle/SQL Server/Sybase等)、电力应用软件等采用双机系统,可以实现运行时的相互监控,发生故障时能自动切换,具备7×24稳定运行的能力,保证了数据的安全性和业务的可靠性。
可用性(Availability)是指系统被请求使用时可能迅速反馈并被正确操作的可能性。行业应用中的许多关键业务是不能在运行中出现间断的,包括商业智能分析、业务流程处理(交易处理和ERP等)、核心数据库等,特别是政府、国防、安全、电信、金融、交通、医疗等关系到国民生计的企业和机构所运行的这类应用。
关键业务的特性决定了其应用的运行一旦出现意外中断就会造成极大的、甚至是无法弥补的不良影响及损失,这就对支持它的IT平台,特别是承载它的服务器提出了非常严格的要求。比如亚马逊在几年前停机一分钟损失可达5万美元,现在停机一分钟损失则可达几十万美元计。在一些金融证券交易中,更是一雇刻千金。双备份可以迅速恢复系统性能。另外还有多子星系统,满足多节点服务需求等。另外许多应用可以提供方案远程管理,虚拟化应用等,提高可用性。
在高铁运营管理中用到一种SSI标准刀片服务器,有6个计算刀片和14个存储刀片,集成度高,非常适合于分散状况下的高铁运营管理。整个解决方案采用PR6000M刀片服务器与宝德的双机热备软件。两台刀片服务器与一套双机热备软件组成双机热备系统,两台服务器通过心跳线相连,两台服务器构成主从工作模式,为前端应用服务器提供不间断的后台支持,在一台服务器出现故障时,另一台服务器承担全部工作负荷,直至故障服务器被修复。一台刀片服务器就集中多个子系统,还进行双机热备,真正解决了集中管理与安全稳定的问题。
可维护性(Serviceability)对于要处理的数据量非常巨大,而又要求实时、动态和效率时,其承载平台要有非常出色且易于扩展的高性能处理能力。比如内存的扩充和硬盘的扩充,如宝德的模块化服务器,存储服务器等。
例如某银行的核心业务数据库要求确保24*7小时不宕机。为此将核心业务数据库部署在宝德PR6850N服务器双机系统上,该服务器为6U四路服务器,拥有超过20项RAS特性,在同城两个机房的两台GS8810FD磁盘陈列上,将核心交易系统及外围系统业务布置在虚拟机上。两台PR6850N部署的虚拟机可以互相接管,实现业务不中断,同时虚拟机部署到存储上实现整个虚拟机连同业务和数据库的备份;同城的异地机房存储设备间的镜像,完成了业务逻辑层的容灾。该方案不仅实现了比原有小型机更高的可扩展性。
需要提醒大家注意的是,服务器的RAS 能力实际上是需要提升成本来实现的,所以用户在服务器选型的时候需要考虑实际需求和性价比,还是应该按照自己的行业需求来选择自己的服务器。例如做为托管的服务器只要稳定运行即可,并不需要太高的性能。而影视艺术、教育和科研类应用,主要希望运算性能更强,并不一定需要考虑双机热备。而除法院系统外,其他系统要求视频数据实时备份也比较少。