【转】CPU优化(4)NUMA架构

转自 http://jimshu.blog.51cto.com/3171847/1266977/

一、服务器系统架构

  从系统架构来看,目前的商用服务器大体可以分为以下三类

1. 即对称多处理器结构(SMP:Symmetric Multi-Processor),,

  在SMP架构中,每个CPU对称工作,各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,因此SMP也被称为一致存储器访问结构(UMA:Uniform Memory Access)。

  对SMP服务器进行扩展的主要方法有:增加内存、更高的CPU工作频率、添加CPU、改善I/O性能。 

  但是,SMP架构中的所有资源(CPU、内存、I/O等)都是共享的,导致了它的扩展能力非常有限。最受限制的则是内存,由于每个CPU必须通过相同的内存总线访问相同的内存资源,因此随着CPU数量的增加,内存访问冲突将迅速增加,最终会造成CPU资源的浪费,使 CPU性能的有效性大大降低。实验证明,SMP架构时,CPU利用率最好的情况是2至4个CPU。

 

 

2. 大规模并行处理结构(MPP:Massive Parallel Processing)

  由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制,目前的技术可实现512个节点互联,数千个CPU。目前业界对节点互联网络暂无标准,如 NCR的Bynet,IBM的SPSwitch,它们都采用了不同的内部实现机制。但节点互联网仅供MPP服务器内部使用,对用户而言是透明的。

  在MPP系统中,每个SMP节点也可以运行自己的操作系统、数据库等。但是每个节点内的CPU不能访问另一个节点的内存,节点之间的信息交互只能通过节点互联网络实现。 

  但是MPP服务器还需要一种复杂的机制来调度和平衡各个节点的负载和并行处理过程。目前一些基于MPP技术的服务器往往通过系统级软件(如数据库)来屏蔽这种复杂性。举例来说,NCR的Teradata就是基于MPP技术的一个关系数据库软件,基于此数据库来开发应用时,不管后台服务器由多少个节点组成,开发人员所面对的都是同一个数据库系统,而不需要考虑如何调度其中某几个节点的负载。

  SQL Server 2008 R2 PDW(并行数据仓库,之前称之为“Madison”)版本采用MPP架构,可以对大型数据表进行分区,并将分区存储在多个物理节点当中,每一个节点均有其独占的CPU资源、内存资源、以及存储资源,并且各自运行独立的SQL Server实例,这种模型称之为Ultra Shared Nothing。所有组件彼此间都是平衡的,从而消除了性能瓶颈。

  MPP的节点互联机制是在不同的SMP服务器外部通过I/O 实现的,每个节点只访问本地内存和存储,节点之间的信息交互与节点本身的处理是并行进行的。因此MPP在增加节点时性能基本上可以实现线性扩展。

 

 

3. 非一致内存访问结构(NUMA:Non-Uniform Memory Access)

 

  在NUMA架构中有多个CPU模块,每个CPU模块由多个CPU组成,并且具有独立的本地内存、I/O槽口等。由于其节点之间可以通过互联模块(如称为Crossbar Switch)进行连接和信息交互,因此每个CPU可以访问整个系统的内存。显然,访问本地内存的速度将远远高于访问远地内存(系统内其它节点的内存)的速度,这也是非一致内存访问的由来。

  从架构来看,NUMA与MPP具有许多相似之处:它们都由多个节点组成,每个节点都具有自己的CPU、内存、I/O,节点之间都可以通过节点互联机制进行信息交互。但是又有很大的不同:

(1)节点互联机制

  NUMA的节点互联机制是在同一个物理服务器内部实现的,当某个CPU需要进行远地内存访问时,它必须等待,这也是NUMA服务器无法实现CPU增加时性能线性扩展的主要原因。

(2)内存访问机制

  在NUMA服务器内部,任何一个CPU可以访问整个系统的内存,但远地访问的性能远远低于本地内存访问,因此在开发应用程序时应该尽量避免远地内存访问。 

 

 

二、NUMA的优势与局限性

1. 优势

  利用NUMA技术,可以较好地解决原来SMP系统的扩展问题,在一个物理服务器内可以支持上百个CPU。比较典型的NUMA服务器的例子包括HP的Superdome、SUN15K、IBMp690等。

 

2. 局限性

  在NUMA架构中,由于访问远地内存的延时远远超过本地内存,因此当CPU数量增加时,系统性能无法线性增加。由于这个特点,为了更好地发挥系统性能,开发应用程序时需要尽量减少不同CPU模块之间的信息交互。

  如HP公司发布Superdome服务器时,曾公布了它与HP其它UNIX服务器的相对性能值,结果发现,64路CPU的Superdome (NUMA结构)的相对性能值是20,而8路N4000(共享的SMP结构)的相对性能值是6.3。从这个结果可以看到,8倍数量的CPU换来的只是3倍性能的提升。

 

 

三、处理器组

  NUMA可以解决手动配置处理器组。

 

 

四、SQL Server中的NUMA

  SQL Server 2000 SP4 开始对NUMA提供有限的 NUMA 支持,SQL Server 2005 有了大量重要的改进。SQL Server 2008对NUMA完全支持和优化,内存访问会尽量使用离CPU最近的内存,以提高性能。

  《SQL Server 如何支持 NUMA》 http://msdn.microsoft.com/zh-cn/library/ms180954(v=SQL.105).aspx

 

1. CPU编号

  2个物理CPU,4核,超线程,总共为2*4*2=16个逻辑CPU。如下图所示:

 

2. SSMS中查看NUMA

 

3. 任务管理器中查看CPU负载

  在此实验中,运行了一个较大负荷的SQL Server查询,然后在任务管理器中查看,可见大多数的操作都在集中在某一个NumaNode执行。

 

五、SQL Server 中的软件NUMA

  推荐使用硬件NUMA,因这它是在硬件层面上得以支持。如何才能知道本机是否有硬件NUMA呢? 最好的办法是问硬件供应商了。

  如果硬件本身不支持NUMA,还可以在软件层面上设置NUMA。 http://www。e800。com。cn/articles/2011/1116/498746.shtml

  软件NUMA只是对CPU进行分组,并不会改变内存。因此对于内存来讲,还是只有一个节点,所以两个NUMA节点访问的都是同一块内存。而增加软件NUMA结点的好处在于,SQL Server会针对每一个软件NUMA结点,多一个LazyWriter的线程,如果系统在LazyWriter上是性能瓶颈的话,引入软件NUMA则可以有效提升性能。

 

 

本文结语:

  通过NUMA技术,可以扩展性能,在一个物理服务器内可以支持上百个CPU。使用硬件NUMA,请咨询硬件供应商。

posted @ 2016-10-20 20:23  fukan  阅读(821)  评论(0编辑  收藏  举报