gpu 驱动安装失败处理

gpu 驱动安装失败处理

描述: 部署完平台后,nvidia-smi 命令不存在,或者不能检测到 gpu,平台 gpu 功能不可用。

关键字: gpu, driver, nvidia, clever, docker

现象:

  在部署时,Install nvidia driver 这个过程会输出失败日志,但不会导致部署失败

  部署完 kernel 后,nvidia-smi 命令不存在,或者不能检测到 gpu 平台资源里面看不到 GPU

解决方案:

  参考附录确保是已支持的 GPU 型号

  进入 gpu 节点的 /root/.clever/driver 目录,执行 sh NVIDIA-Linux-x86_64-384.98.run 尝试手动安装驱动

  如果报错,说设备被使用 nouveau 占用,或者登陆了图形化界面,请先重启后,再重新安装

posted @ 2023-06-25 09:56  左扬  阅读(122)  评论(0编辑  收藏  举报
levels of contents