大连人工智能计算平台——华为昇腾AI平台——高性能计算HPC平台异构计算——NVIDIA GPU

 

 

 

使用华为的超算平台已经好长时间了,一直有个疑问,那就是这个超算平台是否支持异构计算,于是用命令试验了一下,具体命令:

 

/opt/batch/cli/bin/dsub   -n task_test -A xxxxxxxxxxxx -eo error.txt -oo output.txt -R "gpu=1" /usr/bin/nvidia-smi -pm 1

 

 

 

 

 

-n 为此次的计算任务名;

-A 为扣费账号,这里用xxxxxxxxxxxxx 代替;

-eo 为error的log;

-oo 为output的log;

运行命令为:/usr/bin/nvidia-smi -pm 1

 

上面命令关键的地方为:-R "gpu=1"

在超算计算中一个运行的总计算任务叫做job,叫做“作业”,而一个job会运行多个副本(每个副本就是mpi中的并行进程),每个副本叫做“task”,即“任务”;

如果没有使用 -N 来指定job的task个数,那么就是一个job只有一个task,而我们使用 -R "gpu=1" 用来指定每个运行的task都必须运行在有一个gpu的主机上,因此使用 -R "gpu=1" 可以保证运行的task都是可以有一个gpu进行调用的。

 

 

 

在华为的超算平台中采用容器的概念对资源进行调配,这里的容器并不是一个真实物理机的概念,容器的这个概念更贴近于虚拟机;假设当前我们只有一个主机名为slave-32的主机,该主机有128个可用CPU,4个可用GPU,那么我们使用 -N 20 -R “cpu=120;gpu=1” 的命令运行mpi代码,我们实际上是将slave-32主机虚拟成了20个有着120个CPU和1个GPU的容器(虚拟主机),分别在20个容器中的20个进程在通信,看似像20个容器(虚拟主机)通信,实际上都是运行在slave-32主机上。

 

 

 

=======================================================

 

posted on   Angry_Panda  阅读(114)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 使用C#创建一个MCP客户端
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 按钮权限的设计及实现
历史上的今天:
2022-07-03 Google公司的python编码规范指南
2022-07-03 pytest中文文档
2021-07-03 【转载】 解决运行docker命令要用sudo的问题
2021-07-03 内网穿透之实践记录,使用花生壳进行内外穿透,场景:在家远程ssh连接到公司电脑或学校服务器
2021-07-03 亲测可用的 Linux(Ubuntu18.04下)可运行的超级玛丽奥(gym-super-mario-bros)游戏的仿真环境—————————可用于强化学习算法的游戏模拟器环境

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示