如何验证 GPU 模块是否正常？

如何验证 GPU 模块是否正常？

1. gpu 节点上，运行 nvidia-smi 能正常返回并识别出 GPU 的型号等信息; 通过 ls -la /dev/ | grep nvidia 能看到 nvidia0 等的 GPU 设备。
2. gpu 节点上，运行 docker info | grep Runtimes 查看默认的 runtime 是否为 nvidia runc
3. gpu 节点上，运行 docker run -it --rm -e NVIDIA_VISIBLE_DEVICES=all nginx nvidia-smi 能正常返回并识别出 GPU 的型号等信息（这里的 nginx 可以替换为其他非 alpine/busybox 类型的镜像）
4. 在集群 master 节点，运行 kubectl get node -o yaml | grep 'nvidia.com/gpu:' 能识别出 gpu 资源，并且数量和宿主机匹配
5. 在集群 master 节点，运行 kubectl get po -n kube-system -o wide| grep nvidia-device-plugin 能发现所有 gpu 节点的 nvidia-device-plugin pod 都存在并处于运行状态
6. 在集群 master 节点，运行 kubectl get po -n kube-system -o wide| grep exporters-gpu-gpu 能发现所有节点的 exporters-gpu-gpu pod 都存在并处于运行状态
7. 安装完平台的 GPU 插件后，能看到 GPU 的监控信息
8. 通过 clever 平台运行 GPU 任务，能正常运行，并显示 GPU 监控信息

posted @ 2023-06-25 09:53 左扬阅读(168) 评论(0) 编辑收藏举报

刷新页面返回顶部

levels of contents