【RDMA】RDMA通信测试工具|RDMA信息查询工具
目录
ceph_perf_msgr_client/ceph_perf_msgr_server
rdma_server, rdma_client (ping-pong测试)
本文作者:bandaoyu @UESTC 不断改进中,请到原文:https://blog.csdn.net/bandaoyu/article/details/115798045
RDMA性能测试工具集-perftest
perftest安装
1、下载源码:
wget https://github.com/linux-rdma/perftest
2、查阅REDME,按指导安装
安装依赖:
yum -y install automake &&yum -y install libtool &&yum -y install pciutils-devel
cd perftest/
./autogen.sh
./configure Note:If you want to install in a specific directory use the optional flag --prefix=<Directory path> , e.g: ./configure --prefix=<Directory path>
make && make install
sudo ./autogen.sh&&sudo ./configure&&sudo make&&sudo make install
报错:
[root@localhost perftest-master]# ./autogen.sh
./autogen.sh: line 5: aclocal: command not found
./autogen.sh: line 6: libtoolize: command not found
./autogen.sh: line 7: autoheader: command not found
./autogen.sh: line 8: automake: command not found
./autogen.sh: line 9: autoconf: command not found
原因:
缺少automake
解决方法:安装
yum -y install automake
报错:libtoolize: command not found
原因:缺少libtool
解决方法:安装
yum -y install libtool
报错:configure: error: pciutils header files not found, consider installing pciutils-devel
原因:缺少pciutils-devel
解决方法:安装
yum -y install pciutils-devel
RDMA性能测试(测试性能如何)
RDMA性能测试工具集-perftest
ib_send_lat latency test with send transactions
ib_send_bw bandwidth test with send transactions
ib_write_lat latency test with RDMA write transactions
ib_write_bw bandwidth test with RDMA write transactions
ib_read_lat latency test with RDMA read transactions
ib_read_bw bandwidth test with RDMA read transactions
ib_atomic_lat latency test with atomic transactions
ib_atomic_bw bandwidth test with atomic transactions
连接https://github.com/linux-rdma/perftest
注意,性能测试时,注意cpu、内存等是否会成为瓶颈。
ibv_xxx_pingpong(带宽和往返时间)
使用ibv_xxx_pingpong可以测试RDMA设备的流量发送功能:
# 在服务端
ibv_rc_pingpong -g 0 -d mlx4_0 -i 1
local address: LID 0x000c, QPN 0x000a19, PSN 0xf31d1e, GID fe80::e41d:2d03:50:e831
remote address: LID 0x000e, QPN 0x000491, PSN 0xfefc9e, GID fe80::e41d:2d03:50:e801
8192000 bytes in 0.01 seconds = 11821.07 Mbit/sec
1000 iters in 0.01 seconds = 5.54 usec/iter#在客户端 192.168.10.27是服务端的地址
ibv_rc_pingpong -g 0 -d mlx4_0 -i 1 192.168.10.27
local address: LID 0x000e, QPN 0x000491, PSN 0xfefc9e, GID fe80::e41d:2d03:50:e801
remote address: LID 0x000c, QPN 0x000a19, PSN 0xf31d1e, GID fe80::e41d:2d03:50:e831
8192000 bytes in 0.01 seconds = 11797.66 Mbit/sec
1000 iters in 0.01 seconds = 5.55 usec/iter
Syntax
ibv_rc_pingpong [-p TCP_port][-d device][-i IB_port][-s size][-r depth] [-n iters][-l level][-e][-h][IP_address]
where:
-
TCP_port is the TCP port.
-
device is the InfiniBand device.
-
IB_port is the InfiniBand port.
-
size is the size of the ping-pong messages.
-
depth is the number of depth receives to post at one time.
-
iters is the number of message exchanges.
-
level is the service level of the queue pair.
-
IP_address is the IP address of the remote node host.
说明ibv_rc_pingpong Command - Sun Datacenter InfiniBand Switch 648 Topic Set
Options:
-p, --port= listen on/connect to port (default 18515)
-d, --ib-dev= use IB device (default first device found)
-i, --ib-port= use port of IB device (default 1)
-s, --size= size of message to exchange (default 4096)
-m, --mtu= path MTU (default 1024)
-r, --rx-depth= number of receives to post at a time (default 500)
-n, --iters= number of exchanges (default 1000)
-l, --sl= service level value
-e, --events sleep on CQ events (default poll)
-g, --gid-idx= local port gid index
-c, --contiguous-mr use contiguous mr
-t, --inline-recv= size of inline-recv
-a, --check-nop check NOP opcode
-o, --odp use on demand paging
-u, --upstream use upstream API
-t, --upstream use upstream API
-z, --contig_addr use specifix addr for contig pages MR, must use with -c flag
-b, --ooo enable multipath processing
-j, --memic use device memory
ib_send_bw/ ib_write_bw(带宽)
基本用法:
在A服务器上运行
# ib_send_bw -d rocepxxx # rocepxxx 是A服务器上IP为192.168.5.232的device
在B服务器上运行:
# ib_send_bw -d rocep94s0f0 192.168.5.232 --report_gbits -F #rocep94s0f0是B服务器上IP网段为192.168.5.xxx的device
原文链接:https://blog.csdn.net/bandaoyu/article/details/115791233
ib_send_bw -h查看可知,-a 参数可msg size 递增测试出最大带宽的msg size
[root@localhost ~]# ib_write_bw -R -d iwp175s0f0 -a -F
[root@localhost ~]# ib_write_bw -R -d iwp175s0f0 -i 1 192.169.31.164 -n 1000 -a -F
#bytes #iterations BW peak[MB/sec] BW average[MB/sec] MsgRate[Mpps]
2 30000000 0.00 12.97 6.801028
4 30000000 0.00 25.88 6.784450
8 30000000 0.00 47.67 6.247553
16 30000000 0.00 73.35 4.806851
32 30000000 0.00 144.83 4.745852
64 30000000 0.00 288.74 4.730646
128 30000000 0.00 578.88 4.742147
256 30000000 0.00 1154.31 4.728070
512 30000000 0.00 2303.88 4.718350
1024 30000000 0.00 4336.23 4.440301
2048 30000000 0.00 4390.40 2.247886
4096 30000000 0.00 4409.06 1.128718
……
其他例子:
(mellonx)server、client:
ib_write_bw -d mlx5_0 -i 1 -x 5 --rdma_cm --tos=33 -n 10000000 -s 1M
ib_write_bw 172.17.31.51 -d mlx5_1 -i 1 -x 5 --rdma_cm --tos=33 -n 10000000 -s 1M
(intel)server、client:
[root@localhost ~]# ib_write_bw -R -d iwp175s0f0 -a -F
[root@localhost ~]# ib_write_bw -R -d iwp175s0f0 -i 1 192.169.31.164 -n 1000 -a -F
启用多个QP
ib_write_bw -h
Usage:
ib_write_bw start a server and wait for connection
ib_write_bw connect to server at
Options:
-a, --all Run sizes from 2 till 2^23
-b, --bidirectional 测量双向带宽(默认为单向)
-c, --connection= 连接类型RC / XRC / UC / DC(默认RC)
-d, --ib-dev= 使用IB设备(找到第一个默认设备)
-D, --duration 在自定义的秒数内运行测试。
-f, --margin measure results within margins. (default=2sec)
-F, --CPU-freq 即使已加载cpufreq_ondemand模块,并且cpu-freq不在最大值,也不会显示警告。
-h, --help Show this help screen.
-i, --ib-port= 使用IB设备的端口<端口>(默认1)
-I, --inline_size= Max size of message to be sent in inline
-l, --post_list= Post list of WQEs of size (instead of single post)
-L, --hop_limit= 设置跳数限制值(对于IPv4 RawEth QP,为ttl)。值0-255(默认64)Set hop limit value (ttl for IPv4 RawEth QP). Values 0-255 (default 64)
-m, --mtu= MTU size : 256 - 4096 (default port mtu)
-n, --iters= 交换次数(至少5次,默认为5000次)
-N, --noPeak 取消峰值BW计算(默认情况下峰值不超过iters = 20000)
-O, --dualport 在双端口模式下运行测试。(Run test in dual-port mode.)
-p, --port= Listen on/connect to port (default 18515)
-q, --qp= qp的数量(默认为1)
-Q, --cq-mod 仅在<-cq-mod>完成后生成Cqe
-R, --rdma_cm Connect QPs with rdma_cm and run test on those QPs
-s, --size= (每个QP)交换消息的大小(默认为65536)
-S, --sl= SL (default 0)
-t, --tx-depth= 发送队列(tx)的大小(默认为128)
-T, --tos= Set to RDMA-CM QPs. available only with -R flag. values 0-256 (default off)
-u, --qp-timeout= QP超时,超时值为4 usec * 2 ^(超时),默认值为14
-V, --version 显示版本号
-w, --limit_bw= 设置验证器带宽限制(Set verifier limit for bandwidth)
-x, --gid-index= Test uses GID with GID index (Default : IB - no gid . ETH - 0)
-y, --limit_msgrate= Set verifier limit for Msg Rate
-z, --com_rdma_cm Communicate with rdma_cm module to exchange data - use regular QPs
--cpu_util 在报告中显示CPU使用率,仅在持续时间模式下有效(Show CPU Utilization in report, valid only in Duration mode )
--dlid Set a Destination LID instead of getting it from the other side.
--dont_xchg_versions Do not exchange versions and MTU with other side
--force-link= Force the link(s) to a specific type: IB or Ethernet.
--ipv6 Use IPv6 GID. Default is IPv4
--mmap=file Use an mmap'd file as the buffer for testing P2P transfers.
--mmap-offset= Use an mmap'd file as the buffer for testing P2P transfers.
--mr_per_qp Create memory region for each qp.
--odp Use On Demand Paging instead of Memory Registration.
--output= 设置详细度输出级别:带宽,message_rate,延迟 Set verbosity output level: bandwidth , message_rate, latency
Latency measurement is Average calculation
--perform_warm_up Perform some iterations before start measuring in order to warming-up memory cache, valid in Atomic, Read and Write BW tests
--pkey_index= PKey index to use for QP
--report-both Report RX & TX results separately on Bidirectinal BW tests
--report_gbits Report Max/Average BW of test in Gbit/sec (instead of MB/sec)
Note: MB=2^20 byte, while Gb=10^9 bits. Use these formulas for conversion:
Factor=10^9/(20^2*8)=119.2; MB=Gb_result * factor; Gb=MB_result / factor
--report-per-port Report BW data on both ports when running Dualport and Duration mode
--reversed Reverse traffic direction - Server send to client
--run_infinitely 永久运行测试,每隔秒打印结果
--retry_count= Set retry count value in rdma_cm mode
--tclass= Set the Traffic Class in GRH (if GRH is in use)
--use_exp Use Experimental verbs in data path. Default is OFF.
--use_hugepages Use Hugepages instead of contig, memalign allocations.
--use_res_domain Use shared resource domain
--verb_type= Set verb type: normal, accl. Default is normal.
--wait_destroy= Wait before destroying allocated resources (QP/CQ/PD/MR..)
Rate Limiter:
--burst_size= Set the amount of messages to send in a burst when using rate limiter
--typical_pkt_size= Set the size of packet to send in a burst. Only supports PP rate limiter
--rate_limit= Set the maximum rate of sent packages. default unit is [Gbps]. use --rate_units to change that.
--rate_units= [Mgp] Set the units for rate limit to MBps (M), Gbps (g) or pps (p). default is Gbps (g).
Note (1): pps not supported with HW limit.
Note (2): When using PP rate_units is forced to Kbps.
--rate_limit_type= [HW/SW/PP] Limit the QP's by HW, PP or by SW. Disabled by default. When rate_limit is not specified HW limit is Default.
Note: in Latency under load test SW rate limit is forced
--use_ooo Use out of order data placement
ib_send_lat\ib_write_lat (时延)
用法同ib_send_bw/ ib_write_bw。
[root@localhost ~]# ib_write_lat -R -d rocep175s0f0 -a -F
[root@localhost ~]# ib_write_lat -R -d rocep175s0f0 -i 1 192.169.31.164 -n 1000 -a -F
#bandwidth
echo "ib_send_bw"
ib_send_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 > /dev/NULL &
sleep 3
ib_send_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 192.168.1.2
sleep 3
echo "ib_read_bw"
ib_read_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send > /dev/NULL &
sleep 3
ib_read_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send 192.168.1.2
sleep 3
echo "ib_write_bw"
ib_write_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send > /dev/NULL &
sleep 3
ib_write_bw -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send 192.168.1.2
sleep 3
#lat
echo "ib_send_lat"
ib_send_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 > /dev/NULL &
sleep 3
ib_send_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 192.168.1.2
sleep 3
echo "ib_write_lat"
ib_write_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 > /dev/NULL &
sleep 3
ib_write_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send -I 96 192.168.1.2
sleep 3
echo "ib_read_lat"
ib_read_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send > /dev/NULL &
sleep 3
ib_read_lat -n 10000 -d irdma1 -i 1 -F --report_gbits --use_old_post_send 192.168.1.2
sleep 3
#ibv_xx_pingpong
echo "ibv_rc_pingpong"
ibv_rc_pingpong -d irdma1 -g 1 > /dev/null &
sleep 3
ibv_rc_pingpong -d irdma1 -g 1 192.168.1.2
sleep 3
echo "ibv_ud_pingpong"
ibv_ud_pingpong -d irdma1 -g 1 > /dev/null &
sleep 3
ibv_ud_pingpong -d irdma1 -g 1 192.168.1.2
sleep 3
echo "rping"
#rping
rping -s -a 192.168.1.2 -v -d -C 3 > /dev/NULL &
sleep 3
rping -c -a 192.168.1.2 -v -d -C 3
原文链接:https://blog.csdn.net/mounter625/article/details/114648380
--tos 字节, DSCP占高6bit, 后2bit 是ECN,不是用户赋值,1个bit是设备支持ECN功能就置1,另1个bit是当设备发现拥堵的时候,置1。
所以想给DSCP赋值4,二进制为100,加2bit怎为100xx,
tos=10000、10001、10010、10011,即16、17、18、19
想给DSCP赋值16,二进制为10000,加2bit怎为10000xx,
tos=1000000、1000001、1000010、1000011,即64、65、66、67
ceph_perf_msgr_client/ceph_perf_msgr_server
ceph的测试工具
Messenger模块的基准测试工具:https://blog.csdn.net/bandaoyu/article/details/114292690
RDMA功能测试(测试能不能工作)
ibping
- 用 RDMA 的地址解析方法,而不是使用
IP
地址指定服务器
infiniband-diags 软件包中的 ibping 测试 RDMA 连接性,ibping程序 实现客户端/服务器模式,用法:使用 -?
或者 --help
选项即可查看 ibping的所有可用选项
首先在一台机器中启动 ibping 服务器,然后再另一台机器中将 ibping 作为客户端运行,并让它与 ibping 服务器相连。
因为我们是要测试基础 RDMA 功能,因此需要用于 RDMA 的地址解析方法,而不是使用 IP
地址指定服务器。
使用 ibv_devinfo
和 ibstat
命令输出 port_lid
(或基础 lid)以及所要测试端口的端口 GUID(假设是上述接口的端口 1,则 port_lid
/基础 LID
是 49,而端口 GUID 是 0x46d2c92000004821
)。
[root@rac2 ~]# ibstat mlx4_0
CA 'mlx4_0'
CA type: MT4099
Number of ports: 2
Firmware version: 2.35.5100
Hardware version: 1
Node GUID: 0x248a0703005d0840
System image GUID: 0x248a0703005d0843
Port 1: ------------------------------>>这是双口卡
State: Active
Physical state: LinkUp
Rate: 56
Base lid: 3
LMC: 0
SM lid: 5
Capability mask: 0x02594868
Port GUID: 0x248a0703005d0841
Link layer: InfiniBand
Port 2: ------------------------------>>这是双口卡
State: Active
Physical state: LinkUp
Rate: 56
Base lid: 2
LMC: 0
SM lid: 2
Capability mask: 0x0259486a
Port GUID: 0x248a0703005d0842
Link layer: InfiniBand
[root@rac2 ~]# ibping -S -C mlx4_0 -P 1
---->此处会没有返回,也就是一直在运行.
---->解释:
-S是以服务器端运行
-C是CA,来自ibstat的输出
-P是端口号,来自ibstat的输出.
使用 -S 或 --Server 服务端
使用 -C 或者 --Ca 绑定网卡
以及 -P 或者 --Port :端口
注:这个实例中的端口不会指示端口号,但会在使用多端口网卡时指示物理端口号。要测试所使用 RDMA 结构的连接性,比如多端口网卡的第二端口,则需要让 ibping 捆绑至网卡的端口 49。使用单一端口网卡时不需要这个选项。例如:
[root@node25 ~]# ibping -S -C mlx4_0 -P 1
客户端机器并运行 ibping。记录 ibping 程序所绑定端口的端口 GUID 或者 ibping程序所绑定服务器端口的 本地标识符(LID)。另外,还需要记录客户端机器中与服务器为所捆绑网卡和端口连接网络相同的网卡和端口。例如:如果服务器中第一网卡的第二端口所捆绑的网络是辅 RDMA 结构,那么就需要在客户端中指定一个也连接到第二结构的网卡和端口。完成配置后,请作为客户端运行 ibping 程序,使用在服务器中找到的端口 LID 或者 GUID 作为地址连接到服务器。例如:
[root@node24 ~]# ibping -c 10000 -f -C mlx4_0 -P 1 -L 49
[root@node24 ~]# ibping -c 10000 -f -C mlx4_0 -P 1 -L 49
--- (Lid 49) ibping statistics ---
10000 packets transmitted, 0 received, 100% packet loss, time 398 ms
rtt min/avg/max = 0.000/0.000/0.000 ms
[root@rac1 rdma]# ibping -c 10000 -f -C mlx4_0 -P 1 -L 3
--- rac2.(none) (Lid 3) ibping statistics ---
10000 packets transmitted, 10000 received, 0% packet loss, time 1096 ms
rtt min/avg/max = 0.028/0.109/0.321 ms
[root@rac1 rdma]#
---->解释:-c 10000的意思是发送10000个packet之后停止.
-f是flood destination
-C是CA,来自ibstat的输出
-P是端口号,来自服务器端运行ibping命令时指定的-P 参数值.
-L是Base lid,来自服务器端运行ibping命令时指定的端口(-P 参数值)的base lid(参考ibstat).注:。使用单一端口网卡时不需要这个选项
这个结果会验证端到端 RDMA 通讯是否在用户空间应用程序中正常工作。
源码:rdma-core-master\rdma-core-master\librdmacm\examples
rdma-core-master\rdma-core-master\libibverbs\examples
原文:RDMA卡的检测方法_weixin_34236869的博客-CSDN博客
udaddy(测试RDMA能否建立连接)
该脚本涵盖了RDMA_CM UD连接。 (它使用librdmacm在两个节点之间建立了一组不可靠的RDMA数据报 通信路径,可以选择在节点之间传输数据报,然后断开通信)
在一台服务器(充当服务器)上运行以下命令:
#udaddy
在第二台服务器(作为客户端)上运行以下命令
# udaddy -s 12.12.12.1udaddy: starting client
udaddy: connecting
initiating data transfers
receiving data transfers
data transfers complete
test complete
return status 0"return status=0" means good exit (RDMA is running).
默认使用端口7174,
udaddy -b 172.17.31.53 #服务端绑定IP
udaddy -s 172.17.31.53 #客户端
rdma_server, rdma_client (ping-pong测试)
这些命令是简单的RDMA CM连接和ping-pong测试(它使用同步librdmam调用在两个节点之间建立RDMA连接)。在一台服务器(充当服务器)上运行以下命令:
#rdma_server在第二台服务器(作为客户端)上运行以下命令:
rdma_client -s 12.12.12.1
rdma_client: start
rdma_client: end 0
"rdma_client: end 0" means good exit (RDMA is running).
rping
该脚本涵盖RDMA_CM RC连接,但仅涉及用户空间(它使用librdmacm在两个节点之间建立一组可靠的RDMA连接,可以选择在节点之间传输数据,然后断开连接)。
在其中一台服务器(充当rping服务器)上运行以下命令
# rping -s -C 10 -v
在其中一台服务器(充当rping客户端)上运行以下命令
# rping -c -a 12.12.12.1 -C 10 -vping data: rdma-ping-0: ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqr
ping data: rdma-ping-1: BCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrs
ping data: rdma-ping-2: CDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrst
ping data: rdma-ping-3: DEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstu
ping data: rdma-ping-4: EFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuv
ping data: rdma-ping-5: FGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvw
ping data: rdma-ping-6: GHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwx
ping data: rdma-ping-7: HIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxy
ping data: rdma-ping-8: IJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz
ping data: rdma-ping-9: JKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyzAclient DISCONNECT EVENT...
ucmatose(建立连接,传输数据)
该脚本涵盖RDMA_CM RC连接,但仅覆盖用户空间(与rping相同)(它使用librdmacm在两个节点之间建立一组可靠的RDMA连接,可以选择在节点之间传输数据,然后断开连接)。在其中一台服务器(充当服务器)上运行以下命令
# ucmatose
在其他服务器(作为客户端)上运行以下命令
#ucmatose -s 12.12.12.1
cmatose: starting client
cmatose: connecting
receiving data transfers
sending replies
data transfers complete
test complete
return status 0
其他测试工具:qperf
特点:第一可以支持RDMA测量,第二可进行循环遍历测试。
使用方法:Linux网络性能评估工具iperf|qperf|netperf:https://blog.csdn.net/bandaoyu/article/details/116758976
验证RDMA内核模块是否已加载
在centos7中,可以用以下命令查看RDMA内核模块的状态:
[root@power27 docs]# /etc/init.d/openibd status
HCA driver loaded
Configured IPoIB devices:
ib0Currently active IPoIB devices:
ib0
Configured Mellanox EN devices:Currently active Mellanox devices:
ib0The following OFED modules are loaded:
rdma_ucm
rdma_cm
ib_ipoib
mlx4_core
mlx4_ib
mlx4_en
mlx5_core
mlx5_ib
ib_uverbs
ib_umad
ib_ucm
ib_cm
ib_core
mlxfw
mlx5_fpga_tools
HCA即支持RDMA的网卡,driver loaded表示驱动已加载。
LINUX 查看安装的网卡
lspci | grep -i eth
检查主机上是否有可用的RDMA网卡
libibverbs-utils工具:ibv_devices、ibv_devinfo
ibv_devinfo
和 ibstat
命令输出信息稍有不同(比如端口 MTU 信息是在 ibv_devinfo
而不是 ibstat
输出中显示,而端口 PUID 信息是在 ibstat
而不是 ibv_devinfo
输出中显示。同时有些信息的命名方式也不同,例如:ibstat
输出中的基础本地标识符(LID)与 ibv_devinfo
输出中的 port_lid
是相同的信息。
ibv_devices
ibv_devices是一个包含在libibverbs-utils.rpm包里的工具,用于显示本机上的RDMA设备:
[root@power27 docs]# ibv_devices
device node GUID
------ ----------------
mlx4_0 e41d2d030050e830
ibv_devinfo
ibv_devinfo 输出主要信息
ibv_devinfo -v 输出详细信息
ibv_devinfo -d mlx4_0 输出指定设备的主要信息
ibv_devinfo -d mlx4_0 -v 输出指定设备的详细信息
Options:
-d, --ib-dev=<dev> use IB device <dev> (default first device found)
-i, --ib-port=<port> use port <port> of IB device (default all ports)
-l, --list print only the IB devices names
-v, --verbose print all the attributes of the IB device(s)
ibv_devinfo也是libibverbs-utils.rpm包中的一个工具,它会打开一个设备查询设备的属性,通过它可以验证用户空间和内核空间的RMDA栈是否能够一起正常运作:
[root@power27 docs]# ibv_devinfo -d mlx4_0
hca_id: mlx4_0
transport: InfiniBand (0)
fw_ver: 2.42.5000
node_guid: e41d:2d03:0050:e830
sys_image_guid: e41d:2d03:0050:e833
vendor_id: 0x02c9
vendor_part_id: 4099
hw_ver: 0x1
board_id: MT_1100120019
phys_port_cnt: 1
Device ports:
port: 1
state: PORT_ACTIVE (4)
max_mtu: 4096 (5)
active_mtu: 4096 (5)
sm_lid: 1
port_lid: 12
port_lmc: 0x00
link_layer: InfiniBand
至少要有一个端口的状态是PORT_ACTIVE,才能说明RDMA相关组件已经正常运行起来。
ibstat
使用ibstat命令显示InfiniBand的具体信息:
[root@node24 ~]# ibstatCA 'mlx4_0' CA type: MT4099
Number of ports: 1
Firmware version: 2.30.3000
Hardware version: 0
Node GUID: 0x46d2c92000004820
System image GUID: 0x46d2c92000004823
Port 1:
State: Active
Physical state: LinkUp
Rate: 56
Base lid: 72
LMC: 0
SM lid: 49
Capability mask: 0x02514868
Port GUID: 0x46d2c92000004821
Link layer: InfiniBand
[root@node25 ~]# ibstatCA 'mlx4_0' CA type: MT4099
Number of ports: 1
Firmware version: 2.30.3000
Hardware version: 0
Node GUID: 0x46d2c92000003500
System image GUID: 0x46d2c92000003503
Port 1:
State: Active
Physical state: LinkUp
Rate: 56
Base lid: 53
LMC: 0
SM lid: 49
Capability mask: 0x0251486a
Port GUID: 0x46d2c92000003501
Link layer: InfiniBand
查看加载了哪些模块
lsmod
报错记录
Couldn't connect to 192.169.31.55:18515
Unable to open file descriptor for socket connection Unable to init the socket connection
关闭selinux
vim /etc/selinux/config
把SELINUX设置为disabled
SELINUX=disabled
重启。
关闭防火墙
关闭: systemctl stop firewalld
开机禁用 : systemctl disable firewalld
【防火墙】linux打开防火墙的某几个端口|打开/关闭防火墙centos7_bandaoyu的博客-CSDN博客
指令记录
查看映射关系
mlnx_qos -i eth2 (mellonx)
设置用L3做流控
mlnx_qos -i eth2 --trust=dscp (mellonx)
修改dscp到priority 映射
dscp 30 映射到修改dscp到priority 6
# mlnx_qos -i eth2 --dscp2prio set,30,6 (mellonx)
使能PFC
# mlnx_qos -i <interface> --pfc 0,0,0,1,0,0,0,0
修改tc和prio的映射(默认除了tc0对应prio1,tc对应prio0,其他的都是对应的,如tc2-prio2,tc3-prio3,tc4-prio4……)
mlnx_qos -i ib3b-0 -p 0,1,2,3,4,5,6,7
端口各优先级的收发计数
#测量该接口发送和接收的 Xon 和 Xoff(传输开启和关闭)帧的数量:
# watch -n 1 "ethtool -S eth1 | grep prio"
(intel
请注意,Rx 计数器全为 0。当适配器通过交换机连接时,rx_priority_* 计数器可能为 0,表明适配器尚未从交换机收到任何暂停帧。根据网络中的压力水平,如果交换机有足够的缓冲来跟上主机需求,这是可以接受的。但是,对于高压力流量(例如更大规模的 HPC 应用程序),交换机通常会向主机发送暂停帧。通常,预计会同时看到 tx 和 rx_priority 计数器。
请注意,某些 Tx 计数器具有相同的值。在 800 系列 QoS 实施中,如果为traffic class中的任何priority启用 PFC,则该traffic class中的所有priority都会获得暂停帧。这意味着同一 TC 中所有priority的计数器都会一致递增,而不管导致 PFC 触发的特定单个priority如何。如果所有priority都映射到同一个 TC,它们都会一致增加。)
对于 RDMA CM 流量,将 RoCE 模式设置为 V2。
cma_roce_mode -d mlx5_0 -p 1 -m 2
将默认 ToS 设置为 24 (DSCP 6) 映射到 skprio 4
cma_roce_tos -d mlx5_0 -t 24
https://community.mellanox.com/s/article/howto-configure-roce-with-ecn-end-to-end-using-connectx-4-and-spectrum--trust-l2-x#jive_content_id_Debugging_ECN_and_PFC
查看GID
show_gids (mellonx;intel自己也写同样的脚本,脚本内容见末尾)
show_gids mlx5_5 (mellonx)查看设备可用端口, gid_index, rmda版本
查看端口丢弃
show_drop (mellonx;intel自己也写同样的脚本,脚本内容见末尾)
弃包统计
ethtool -S enp175s0f0 | grep drop
watch -n 1 “ethtool -S enp175s0f0 | grep drop” #1 s 刷新一次
各个优先级收发包统计
watch -n 1 "ethtool -S ib3b-0 | grep prio"
查看device
ibdev2netdev (mellonx;intel自己也写同样的脚本,脚本内容见末尾)
ibdev2netdev –v (mellonx)
验证 InfiniBand 链接是否已启动
hca_self_test.ofed (mellonx)
Mellanox OFED 安装的信息
/etc/infiniband/info
看自动加载的模块列表
/etc/infiniband/openib.conf
检查Mellanox网卡是否安装和版本
[root@rdma61 ~]# lspci | grep Mellanox
查看驱动版本:modinfo mlx5_core
查看系统里所有的网卡和工作状态:
[root@rdma63 tcpdump]# ip a
[root@rdma63 tcpdump]# ibv_devices
device node GUID
------ ----------------
mlx5_1 98039b03009a4296
mlx5_0 98039b03009a2b3a
[root@rdma63 tcpdump]# ibv_devinfo
或
[root@rdma63 tcpdump]# ibv_devinfo mlx5_0
重新启动RDMA驱动
/etc/init.d/openibd restart
如果驱动不正常,虽然service network restart 可以启动Ethernet端口,但实际rdma驱动并未成功加载。
执行/etc/init.d/openibd restart 可以看到很多的错误。(还有记得把ibacm启动, service ibacm start)
The ibacm service is responsible for resolving names and addresses to InfiniBand path information and caching such data.
It should execute with administrative privileges.
The ibacm implements a client interface over TCP sockets, which is abstracted by the librdmacm library.
mellonx信息搜集
/usr/sbin/sysinfo-snapshot.py
//****************************************************交换机****************************************
S6820《H3C S6820 系列以太网交换机 二层技术-以太网交换配置指导》P11:PFC 优先级高于FC,设置了PFC 则忽略FC
S6820《08-ACL和QoS命令参考》 http://www.h3c.com/cn/d_201904/1164329_30005_0.htm#_Toc5703597
2.配置H3C交换机
a) 配置优先级信任模式为DSCP:
例如:
[H3C]sys
[H3C]interface HundredGigE1/0/6
[H3C-HundredGigE1/0/6] 6
*配置信任模式为DSCP,交换机才会使用 报文自带的DSCP做映射。
设置信任模式为DSCP,则进入交换机的报文优先级映射会涉及到3个表:
进-->出 映射,
dscp-dot1p #入端口报文为dscp会被交换机映射到lp队列
dscp-dp #入端口报文为dscp会被交换机映射到dp队列
dscp-dscp #入端口报文的dscp会被交换机改为dscp转发
(优先级可分为两类:报文携带优先级和设备调度优先级。
设备调度优先级是指报文在设备内转发时所使用的优先级,只对当前设备自身有效。
设备调度优先 级包括以下几种:
• 本地优先级(LP):设备为报文分配的一种具有本地意义的优先级,每个本地优先级对应一 个队列,本地优先级值越大的报文,进入的队列优先级越高,从而能够获得优先的调度。
• 丢弃优先级(DP):在进行报文丢弃时参考的参数,丢弃优先级值越大的报文越被优先丢弃。)
display qos map-table dscp-dot1p
b) 配置PFC功能的开启模式
例如:
[H3C]sys
[H3C]interface HundredGigE1/0/6
[H3C-HundredGigE1/0/6] priority-flow-control enable
6.显示接口的PFC信息
display priority-flow-control interface 显示全部
display priority-flow-control interface [ interface-type [ interface-number ] ] 显示某个
关闭PFC:undo priority-flow-control
7,使能PFC后还需指定PFC作用的不弃包的等级priority-flow-control no-drop dot1p dot1p-list
如:
priority-flow-control no-drop dot1p 0
priority-flow-control no-drop dot1p 0,1,3
(dot1p和dscp的映射见display qos map-table dscp-dot1p )
http://www.h3c.com/cn/d_201906/1206016_30005_0.htm
显示端口是否开启FC:----不是PFC,设置了PFC就忽略FC
display interface [接口]
如: display interface HundredGigE1/0/2
缩写:dis int HundredGigE1/0/4
(1、端口入方向报文计数错误字段解释
input errors:各种输入错误的总数。
runts:表示接收到的超小帧个数。超小帧即接收到的报文小于 64 字节,且包括有效的 CRC 字段,报文格式正确。
giants:是超过端口设置的 Maximum Frame Length 的报文个数。 CRC:表示接收到的 CRC 校验错误报文个数。
frame:端口接收时出错的报文。
2、端口出方向报文计数错误字段解释
output errors:各种输出错误的总数。
aborts:表示发送失败的报文总数。
deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过 2 倍的最大报文发送时间。
collisions:表示冲突帧总数,即在发送过程中发生冲突的报文。 l
ate collisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过 512bit 时间的帧。
)
H3C 二层命令参考:http://www.h3c.com/cn/d_202104/1397802_30005_0.htm
****************************
显示和维护(H3C交换机)
****************************
大部分指令interface 可以缩写成int
1.显示指定优先级映射表配置情况
display qos map-table dot1p-dp | dot1p-exp | dot1p-lp | dscp-dot1p | dscp-dp | dscp-dscp | exp-dot1p | exp-dp ]
如:display qos map-table dscp-dscp
2. 显示接口优先级信任模式信息(sys视图)
display qos trust interface [ interface-type interface-number ]
如:
display qos trust interface HundredGigE1/0/1
3. 显示端口简单信息
display interface brief
4. 显示端口在该间隔时间内统计的报文信息
display interface
5. 显示Qos trust设置
display qos trust int
6. 显示接口的PFC信息
display priority-flow-control interface 显示全部
display priority-flow-control interface [ interface-type [ interface-number ] ] 显示某个
显示收发和暂停统计
-显示全部端口
-display interface
-显示某个端口
-display interface HundredGigE1/0/2
查看拥塞drop包(弃包/丢包)
display packet-drop
display packet-drop interface HundredGigE1/0/4
《接口管理命令参考》http://www.h3c.com/cn/d_201906/1206016_30005_0.htm
//===============================================================================测试================================================================
Tos=============
--tos=<tos value> Set <tos_value> to RDMA-CM QPs. available only with -R flag. values 0-256 (default off)
ibdump -d mlx5_0 -i 1 -w sniffer.acp #抓包
ib_send_bw -d mlx5_0 --rdma_cm #服务端
ib_send_bw 192.169.31.54 --rdma_cm --tos=12 –R #客户端1100
关闭交换机PFC:
[H3C]sys
[H3C]interface HundredGigE1/0/4
[H3C-HundredGigE1/0/4] undo priority-flow-control
# 显示所有接口的WRED配置情况和统计信息。
<Sysname> display qos wred interface
# 显示WRED表1的配置情况,表1是一个已经配置好的WRED参数表。
<Sysname> display qos wred table name 1
sys视图:
创建wred表:qos wred queue table table-name
显示wred表:display qos wred table
删除wred表:undo qos wred queue table table-name
接口应用/切换wred表:
[H3C]int HundredGigE1/0/2
[H3C-HundredGigE1/0/2]qos wred apply queue-table1
撤销接口的wred表:
[H3C]int HundredGigE1/0/2
[H3C-HundredGigE1/0/2]undo qos wred apply
http://www.h3c.com/cn/d_202107/1423314_30005_0.htm#_Toc76396377
queue 0 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 1 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 2 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 3 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 4 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 5 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 6 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 7 drop-level 0 low-limit 1000 high-limit 30000 discard-probability 1
queue 0 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 1 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 2 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 3 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 4 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 5 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 6 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 7 drop-level 1 low-limit 1000 high-limit 30000 discard-probability 1
queue 0 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 1 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 2 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 3 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 4 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 5 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 6 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
queue 7 drop-level 2 low-limit 1000 high-limit 30000 discard-probability 1
缓冲区使用情况查询:
display buffer usage interface
display buffer usage interface HundredGigE1/0/6
display priority-flow-control interface HundredGigE1/0/2
display priority-flow-control interface HundredGigE1/0/4
display priority-flow-control interface HundredGigE1/0/6
display packet-drop interface HundredGigE1/0/2
reset counters interface HundredGigE1/0/2
reset counters interface HundredGigE1/0/4
reset counters interface HundredGigE1/0/6
qos wred apply queue-table1
==========================
Intel show_gids
==========================
#!/bin/bash
function show_gid()
{
for device in ` ls /sys/class/infiniband/` #注意此处这是两个反引号,表示运行系统命令
{
echo "****************"
echo "Device:"${device}
for port in ` ls /sys/class/infiniband/${device}/ports/`
{
echo "IB port:"${port}
for gid in `ls /sys/class/infiniband/${device}/ports/${port}/gids`
{
GID=`cat /sys/class/infiniband/${device}/ports/${port}/gids/${gid}` #在此处处理文件即可
if [[ $GID == *0000:0000:0000:0000:0000:0000:0000:0000* ]]
then
: #do nothing
#echo "包含"
else
#echo "不包含"
echo "GID"${gid}":"$GID
fi
}
}
}
}
show_gid
==========================
Intel show_drop
==========================
#!/bin/bash
function show_drop()
{
for device in `ls /sys/class/infiniband/`
{
echo ""
echo -e "\e[1;32m${device}\e[0m"
cd /sys/class/infiniband/${device}/hw_counters
for f in *Discards
{
echo -n "$f: "
cat "$f"
}
}
}
show_drop
*intel官方提供的脚本:
# cd /sys/class/infiniband/irdma-enp175s0f0/hw_counters
# for f in *Discards; do echo -n "$f: "; cat "$f"; done
==========================
Inetl ibdev2netdev
==========================
#!/bin/bash
echo "--------------------------------------"
echo "script locate:/usr/bin/ibvdev2netdev"
echo "Author:liangchaoxi"
echo "***************************************"
ibv_devices|awk '{system("echo "$1"\"-->\"`ls /sys/class/infiniband/"$1"/device/net`")}' |& grep -Ev '/device/net|device|-------->'
echo "***************************************"
ip route
echo "--------------------------------------"
@UESTC