服务器NUMA
从系统架构: 服务器分为两类
对称多处理器架构(SMP:Symmetric Multi-Processor)
非一致存储访问架构(NUMA:Non-Uniform Memory Access)
SMP
所谓对称多处理器结构,是指服务器中多个CPU对称工作,无主次或从属关系。
各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,因此SMP也被称为一致存储器访问结构(UMA:Uniform Memory Access)
对SMP服务器进行扩展的方式包括增加内存、使用更快的CPU、增加CPU、扩充I/O(槽口数与总线数)以及添加更多的外部设备(通常是磁盘存储)。
SMP服务器的主要特征是共享,系统中所有资源(CPU、内存、I/O等)都是共享的。也正是由于这种特征,导致了SMP服务器的主要问题,那就是它的扩展能力非常有限。
对于SMP服务器而言,每一个共享的环节都可能造成SMP服务器扩展时的瓶颈,而最受限制的则是内存。由于每个CPU必须通过相同的内存总线访问相同的内存资源,因此随着CPU数量的增加,内存访问冲突将迅速增加,最终会造成CPU资源的浪费,使CPU性能的有效性大大降低。实验证明,SMP服务器CPU利用率最好的情况是2至4个CPU
NUMA
由于SMP在扩展能力上的限制,人们开始探究如何进行有效地扩展从而构建大型系统的技术,NUMA就是这种努力下的结果之一
利用NUMA技术,可以把几十个CPU(甚至上百个CPU)组合在一个服务器内.
NUMA多处理机模型如图所示,其访问时间随存储字的位置不同而变化。其共享存储器物理上是分布在所有处理机的本地存储器上。所有本地存储器的集合组成了全局地址空间,可被所有的处理机访问。处理机访问本地存储器是比较快的,但访问属于另一台处理机的远程存储器则比较慢,因为通过互连网络会产生附加时延。
NUMA服务器的基本特征是具有多个CPU模块,每个CPU模块由多个CPU(如4个)组成,并且具有独立的本地内存、I/O槽口等。
由于其节点之间可以通过互联模块(如称为Crossbar Switch)进行连接和信息交互,因此每个CPU可以访问整个系统的内存(这是NUMA系统与MPP系统的重要差别)。显然,访问本地内存的速度将远远高于访问远地内存(系统内其它节点的内存)的速度,这也是非一致存储访问NUMA的由来。
由于这个特点,为了更好地发挥系统性能,开发应用程序时需要尽量减少不同CPU模块之间的信息交互。利用NUMA技术,可以较好地解决原来SMP系统的扩展问题,在一个物理服务器内可以支持上百个CPU。比较典型的NUMA服务器的例子包括HP的Superdome、SUN15K、IBMp690等。
但NUMA技术同样有一定缺陷,由于访问远地内存的延时远远超过本地内存,因此当CPU数量增加时,系统性能无法线性增加。如HP公司发布Superdome服务器时,曾公布了它与HP其它UNIX服务器的相对性能值,结果发现,64路CPU的Superdome (NUMA结构)的相对性能值是20,而8路N4000(共享的SMP结构)的相对性能值是6.3. 从这个结果可以看到,8倍数量的CPU换来的只是3倍性能的提升.
//查看linux内核启动行,这个是grub会读取的
[root@ht2 cpu0]# cat /proc/cmdline
BOOT_IMAGE=/vmlinuz-3.10.0-693.el7.x86_64 root=/dev/mapper/centos-root ro rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet LANG=en_US.UTF-8
[root@ht2 cpu0]# cat /etc/default/grub
GRUB_TIMEOUT=5
GRUB_DISTRIBUTOR="$(sed 's, release .*$,,g' /etc/system-release)"
GRUB_DEFAULT=saved
GRUB_DISABLE_SUBMENU=true
GRUB_TERMINAL_OUTPUT="console"
GRUB_CMDLINE_LINUX="rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet"
GRUB_DISABLE_RECOVERY="true"
//安装后的系统里面修改启用numa。
[root@ht2 cpu0]# vi /etc/default/grub
## replace numa=off to numa=on
[root@ht2 cpu0]#grub2-mkconfig -o /boot/efi/EFI/redhat/grub.cfg
[root@ht2 cpu0]#shutdown -r now
安装numa的工具,查看numa和管理numa
这个工具有点类似 taskset 可以对cpu的行为造成影响。
[root@fp-web-112 ~]# yum -y install numactl //centos7下很容易安装,网速足够快的情况下,安装很简单。
[root@fp-web-112 ~]# numactl -h
语法:
numactl [--interleave nodes] [--preferred node] [--membind nodes]
[--cpunodebind nodes] [--physcpubind cpus] [--localalloc] [--] {arguments ...}
numactl --show
numactl --hardware
numactl [--huge] [--offset offset] [--shmmode shmmode] [--length length] [--strict]
[--shmid id] --shm shmkeyfile | --file tmpfsfile
[--touch] [--dump] [--dump-nodes] memory policy
主要参数:
--interleave=nodes, -i nodes
这个选项用于设定内存的交织分配模式。 也就是说系统在为多个节点分配内存空间的时候,将会以轮询分发的方式被分配给这多个节点.
如果在当前众多的交织分配内存节点中的目标节点无法正确的分配内存空间的话,内存空间将会由其他的节点来分配。
--membind=nodes, -m nodes
选项 '--membind' 仅用来从节点中分配内存空间所用。 如果在这些节点中无法分配出所请求的空间大小的话该分配操作将会失败.
上述命令中指定需要分配空间的 nodes 的方式可以遵照上述 N,N,N , N-N ,N 这种方式来指定.
--cpunodebind=nodes, -N nodes
上述命令仅用于施加在运行与 cpu 上的进程。这个命令用于显示 cpu 的个数,
cpu 数目信息同样记录在系统中的存放处理器领域信息的 /proc/cpuinfo 文件夹下,
或者是按照关联的中央处理器信息 在当前的中央处理器集中所存放.
--localalloc , -l
这个命令选项通常是为当前的节点分配内存的
--preferred=node
该命令由于指定优先分配内存空间的节点,如果无法将空间分配给该节点的话,应该分配给该节点上的空间将会被分发到其他的节点上
该命令选项后面仅接收一个单独的节点标号. 相关的表示方式也可以使用.
--show,-s 该命令用于显示 NUMA 机制作用在当前运行的那些进程上
--hardware , -H 该命令用于显示当前系统中有多少个可用的节点.
--huge 当创建一个基于大内存页面的系统级的共享内存段的时候,使用 --huge 这个选项。
--huge 选项仅在 --shmid 或是 --shm 命令的后面使用才有效.
--offset 该参数选项用于指定共享内存段中的位移量的偏移。 默认的情况下偏移量是 0 。 有效的偏移量单位是 m (用于表示 MB)
g (用于表示 GB) , k (用于表示 KB ), 其他没有指定的被认为是以字节为单位.
--strict
这个参数选项 当施加了 NUMA 调度机制的共享内存段区域的页面被施加了另一个机制而导致错误的时候,
使用 --strict 选项将会把错误信息显示出来. 默认情况是不使用该选项的。
--shmmode shmmode
该选项仅在 --shmid 或是 --shm 之前使用才会生效。 当创建一个共享内存段的时候,通过整型数值来指定
共享内存的共享的模式类型.
--length length
Apply policy to length range in the shared memory segment or make the segment length long Default is to use the remaining
length Required when a shared memory segment is created and specifies the length of the new segment then .
Valid units are m ( for MB ) , g( for GB) , k ( for KB) , otherwise it specifies bytes.
--shmid id
通过ID 号码来创建或使用一个共享内存段。
(如果共享内存段已经存在,那么通过 shmid 来指定下面要使用某个 ID 的共享内存段 ; 如果该 ID 对应的共享内存段并不存在的话,那么就创建一个)
--shm shmkeyfile
通过存放在 shmkeyfile(共享内存-键文件)中的 ID 号码来创建或者是使用一个共享内存段。
访问 shmkeyfile 文件的进程是通过 fork(3 arguments) 方法来实现的.
--file tmpfsfile
将 numa 机制施加于文件上面, 这个文件属于 tmpfs或者是 hugetlbfs 这种特殊的文件系统
--touch
通过将 numa 机制施加于刚刚页面上来实现内存的早期 numa 化。
默认情况下是不使用该选项,如果存在映射或是访问页面的应用的话,将会使用该早期实行 NUMA 机制的这种方法.
--dump
该选项用于废除将已经 numa 化的特定区域上的 NUMA性质.
(--dump ) 选项后,有效指定 node 的书写方式
all 用于将所有的节点上的 NUMA 特性移除
number 通过指定 node 后接的数值来废除该数字对应的 node
number1(number2) node number1(node number2)上的 NUMA 特性将会被移除
number1-number2 node number1 -- node number2 区间上的所有存在的 node 的 NUMA 特性将会被移除
!nodes 除了 nodes 所指定的节点以外的所有节点上的 NUMA 特性全都会被移除
//我们查看,linux内核文档写的很清楚,默认是关闭的,关闭的情况下仅仅是安装为单个节点。
//原文: numa=off Only set up a single NUMA node spanning all memory.
[root@fp-web-112 ~]# numactl --hardware
available: 1 nodes (0) //1个节点有效
node 0 cpus: 0 1 2 3 4 5 6 7 //8核都安装在这个节点下
node 0 size: 16383 MB //将近16G内存都由该节点控制
node 0 free: 3710 MB //3.6g是空闲
node distances:
node 0
0: 10
查看当前的numa策略
[root@ht4 drivers]# numactl --show
policy: default
preferred node: current
physcpubind: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
cpubind: 0 1
nodebind: 0 1
membind: 0 1
可显示各node中内存使用情况
[root@ht4 drivers]# numactl -H
available: 2 nodes (0-1)
node 0 cpus: 0 1 2 3 4 5 6 7 16 17 18 19 20 21 22 23
node 0 size: 16355 MB
node 0 free: 12093 MB
node 1 cpus: 8 9 10 11 12 13 14 15 24 25 26 27 28 29 30 31
node 1 size: 16384 MB
node 1 free: 7247 MB
node distances:
node 0 1
0: 10 20
1: 20 10
//查看numa状态
复制代码
[root@fp-web-112 ~]# numastat
node0
numa_hit 5740940530
numa_miss 0
numa_foreign 0
interleave_hit 21170
local_node 5740940530
other_node 0
-m:显示每个节点中,系统范围内使用内存的情况,可以与其他参数组合使用
[root@ht4 drivers]# numastat -m
Per-node system memory usage (in MBs):
Node 0 Node 1 Total
--------------- --------------- ---------------
MemTotal 16355.61 16384.00 32739.61
MemFree 12096.06 7244.43 19340.49
MemUsed 4259.55 9139.57 13399.12
Active 799.33 3653.24 4452.57
Inactive 1053.88 2466.18 3520.05
Active(anon) 171.07 145.52 316.58
Inactive(anon) 97.50 107.89 205.38
Active(file) 628.27 3507.73 4135.99
Inactive(file) 956.38 2358.29 3314.67
Unevictable 0.00 0.00 0.00
Mlocked 0.00 0.00 0.00
Dirty 0.02 0.23 0.25
Writeback 0.00 0.00 0.00
FilePages 1587.35 5874.20 7461.55
Mapped 38.65 207.97 246.62
AnonPages 266.27 245.56 511.82
Shmem 0.40 0.64 1.05
KernelStack 11.89 11.91 23.80
PageTables 5.46 5.90 11.36
NFS_Unstable 0.00 0.00 0.00
Bounce 0.00 0.00 0.00
WritebackTmp 0.00 0.00 0.00
Slab 1639.97 2257.53 3897.50
SReclaimable 810.03 1119.70 1929.73
SUnreclaim 829.94 1137.82 1967.76
AnonHugePages 124.00 128.00 252.00
HugePages_Total 0.00 0.00 0.00
HugePages_Free 0.00 0.00 0.00
HugePages_Surp 0.00 0.00 0.00
-c:紧凑的显示信息,将内存四舍五入到MB单位,适合节点较多时使用
[root@ht4 drivers]# numastat -c
Per-node numastat info (in MBs):
Node 0 Node 1 Total
------- -------- --------
Numa_Hit 8830145 17715290 26545435
Numa_Miss 59522 6479342 6538864
Numa_Foreign 6479342 59522 6538864
Interleave_Hit 61 62 123
Local_Node 8829485 17723254 26552738
Other_Node 60182 6471378 6531560