如何验证 GPU 模块是否正常?

如何验证 GPU 模块是否正常?

 

    1. gpu 节点上,运行 nvidia-smi 能正常返回并识别出 GPU 的型号等信息; 通过 ls -la /dev/ | grep nvidia 能看到 nvidia0 等的 GPU 设备。
    2. gpu 节点上,运行 docker info | grep Runtimes 查看默认的 runtime 是否为 nvidia runc
    3. gpu 节点上,运行 docker run -it --rm -e NVIDIA_VISIBLE_DEVICES=all nginx nvidia-smi 能正常返回并识别出 GPU 的型号等信 息(这里的 nginx 可以替换为其他非 alpine/busybox 类型的镜像)
    4. 在集群 master 节点,运行 kubectl get node -o yaml | grep 'nvidia.com/gpu:' 能识别出 gpu 资源,并且数量和宿主机匹配
    5. 在集群 master 节点,运行 kubectl get po -n kube-system -o wide| grep nvidia-device-plugin 能发现所有 gpu 节点的 nvidia-device-plugin pod 都存在并处于运行状态
    6. 在集群 master 节点,运行 kubectl get po -n kube-system -o wide| grep exporters-gpu-gpu 能发现所有节点的 exporters-gpu-gpu pod 都存在并处于运行状态
    7. 安装完平台的 GPU 插件后,能看到 GPU 的监控信息
    8. 通过 clever 平台运行 GPU 任务,能正常运行,并显示 GPU 监控信息
posted @   左扬  阅读(212)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2022-06-25 Kubernetes——Secret资源
2022-06-25 Kubernetes——应用程序配置管理及 ConfigMap 资源
2022-06-25 Kubernetes——利用环境变量(env.value or env.valueFrom)配置容器应用
2022-06-25 Kubernetes——容器应用配置的配置方式
2022-06-25 Kubernetes——downwardAPI存储卷
2022-06-25 Kubernetes——PV 和 PVC 的生命周期
levels of contents
点击右上角即可分享
微信分享提示