CPU/内存基准测试

基准测试

什么是基准测试：

基准测试是一种测量和评估软件性能指标的活动；

基准测试数据的实际用途

1) 了解系统性能基准作为参照物（性能问题发生后的测试很难了解系统性能基准）
2) 识别系统或环境的配置变更对性能响应带来的影响
3) 为系统优化前后的性能提升/下降提供参考指标（收集，保存基准测试结果作为测试指标）
4) 观察系统的整体性能趋势与拐点发生，及早识别系统性能风险

一、CPU基准性能测试

测试说明

SuperPI测试是利用 CPU 的浮点运算能力来计算出π（圆周率），可以用做测试系统稳定性和测试 CPU 计算完后特定位数圆周率所需的时间。

1、单核测试命令：
# time echo "scale=5000; 4*a(1)" | bc -l -q &>1c
其中 scale 指定计算到小数点后多少位。

说明：
计算原理简单介绍一下，由于 tan（PI/4）=1，所以有 PI=4*atan(1)。
bc 命令是任意精度计算器语言，在 linux 下当做科学计算器使用。-l 指定采用标
准数学库，-q 指定 quiet 模式，不打印欢迎语句。最后用 time 命令输出计算的时
间，可以用时间的长短来衡量 CPU 核心的计算能力，比如同样计算到 PI 的小数
点后 5000 位，计算时间越短，说明 CPU 核心的计算能力越强。

2、多核心测试脚本：

# vim superpi_multicore.sh

#!/bin/bash
cpu_seqs=`cat /proc/cpuinfo | grep proce | sed -e "s/.* //g" | tr -s '\n' ' '`
for cpu_seq in $cpu_seqs;do
time echo "scale=5000; 4*a(1)" | taskset -c $cpu_seq bc -l -q &>1 &
done

说明：

以上脚本先获取云主机有多少个核心，然后根据这个核心数提交对应个数的
superpi 任务，让每个核心都跑一个 superpi 任务。

测试步骤

单核测试，在测试机（node114)测试，输入命令：

# time echo "scale=5000; 4*a(1)" | bc -l -q &>1

数值越小，表明时间越短，说明单核心计算能力越强

多核测试，在测试机（node114)测试，输入命令：sh superpi_multicore.sh

测试结果说明：
1. 在云服务器上，通常 CPU 的核心都是 vCPU，也就是说底层物理 cpu 开启了超线程后，一个物理核心可以虚拟出两个 vCPU 的核心，也称为两个 HT（HyperThreading）。

2. 对于企业级用户来说，通常为了 CPU 性能运行稳定，一般会限定同一个物理核心的虚拟出的两个 vCPU 绑定在一个云服务器实例上，也称之为 PIN 住。

3. 对于 CPU PIN 住的实例来说，对于单个物理核心上的两个 vCPU 来说，单 vCPU运行 superPI，另一个 vCPU 闲置的时候，跑 superPI 的 vcpu 是可以用到所有物理核心的计算能力的。因此对于 CPU PIN 住的云服务器来说，当两个 vCPU 同时跑 superPI 时(多进程)，用时会比只有单 vCPU 跑的时候耗时会更多。如上面的测试结果就是这种情况，多进程用时比单进程用时长。

4. 如果 CPU 没有 PIN 住，跑出来的时间可能是一样的。表面上看 CPU 没有 pin 住，似乎对客户来说有利，实际上云上的环境通常是多租户的，在 CPU 没有 pin 住的时候，用户的应用更容易受到其他用户的应用的影响，从而无法获取稳定的性能输出。

二、内存基准测试

Stream内存带宽测试

步骤 1 Stream 使用说明
stream 是业内公认的用于内存性能评估的基准测试软件，其包括 Copy（复制）、Scale（乘法）、Add（加法）以及 Triad（三者复合）四种不同操作情况下的内存带宽表现：

复制(Copy) a(i) = b(i)

尺度变换(Scale) a(i) = q*b(i)

矢量求和(Add) a(i) = b(i) + c(i)

复合矢量求和(Triad) a(i) = b(i) + q*c(i)

参数设置说明：
l Copy 是复制操作，从一个内存单元中读取一个数，并复制到另一个内存单元。
l Scale 是乘法操作，从一个内存单元中读取一个数，与常数相乘后，将结果写入另一个内存单元。
l Add 是加法操作，从两个内存单元中分别读取两个数，相加后，将得到的结果写入另一个内存单元中。
l Triad 是前面三种的结合，先从内存中读取一个数，与常数相乘后，得到一个乘积，然后从另一个内存单元中读取一个数与之前的乘积相加，得到的结果再写入内存。
l 程序有三个重要参数需要设置，STREAM_ARRAY_SIZE，NTIMES 以及 OFFSET。

这三个参数的设置可以参考源码中的说明。
1. STREAM_ARRAY_SIZE，默认是 10000000。表示测试数据集的大小，该大小应该遵循以下两条规则。
l 数据集大小应不小于 L3 cache 大小的 4 倍。
ￚ例如，配置两个 E5 CPU 的服务器，每个 cpu 有 20MB 的 L3 Cache，两个 cpu 共计 40MB。
ￚ40MB*4=160MB，每个数据大小是 8Byte，因此数据集大小应该大于160MB/8B=20Million。
l 数据集大小应能确保程序输出时间大于 20 个时钟周期。
l 本例中，我们使用尽量大的 STREAM_ARRAY_SIZE 来进行测试。

2. NTIME。该参数为 kernel 执行的次数，程序将输出除第一次外其他结果中最好的结果，所以 NTIME 的最小值是 2。该值默认为 10，通常不许要修改。

步骤 2 下载 stream 源码文件

# wget https://www.cs.virginia.edu/stream/FTP/Code/stream.c
# yum -y install gcc
# ls stream.c

步骤 3 创建编译测试脚本

# vim stream_test.sh

# vim stream_test.sh
#!/bin/bash
# 获取可用 memory
available_memory_size=`free -m | grep Mem | awk '{print ($4)*1024*1024}'`
# 计算最大 array_size
array_size=$((available_memory_size/8/3))
# 编译 stream
gcc -O stream.c -fopenmp -DSTREAM_ARRAY_SIZE=$array_size -DNTIME=30 -mcmodel=medium -o stream.o
# 执行测试
/stream.o

步骤 4 执行测试
# chmod +x stream_test.sh
#./stream_test.sh

Best Rate 数值越高越好

MLC内存延迟测试

步骤 1 MLC 使用说明

mlc 为 intel 的内存测试工具，可以有效方便的测试内存延时。

步骤 2 下载

#wget https://software.intel.com/content/dam/develop/external/us/en/protected/mlc_v3.9.tgz

步骤 3 安装

解压安装：
# tar -xzvf mlc_v3.9.tgz
# yum install -y glibc

步骤 4 测试步骤

# ./Linux/mlc --idle_latency -e -r -l128 -D8192

重复运行 10 次，求平均值结果中小括号中的 ns 值，ns 数值越低越好

posted @ 2022-08-24 10:21 莫离m 阅读(2067) 评论(0) 编辑收藏举报

刷新页面返回顶部

莫离mn