gpu 驱动安装失败处理
gpu 驱动安装失败处理
描述: 部署完平台后,nvidia-smi 命令不存在,或者不能检测到 gpu,平台 gpu 功能不可用。
关键字: gpu, driver, nvidia, clever, docker
现象:
在部署时,Install nvidia driver 这个过程会输出失败日志,但不会导致部署失败
部署完 kernel 后,nvidia-smi 命令不存在,或者不能检测到 gpu 平台资源里面看不到 GPU
解决方案:
参考附录确保是已支持的 GPU 型号
进入 gpu 节点的 /root/.clever/driver 目录,执行 sh NVIDIA-Linux-x86_64-384.98.run 尝试手动安装驱动
如果报错,说设备被使用 nouveau 占用,或者登陆了图形化界面,请先重启后,再重新安装