nvidia工作模式变化引起的问题

　　这两天遇到了一个奇怪的现象：

docker run突然报错，跟显卡有关。

Error response from daemon: failed to create task for container: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #1: error running hook: exit status 1, stdout: , stderr: Auto-detected mode as 'legacy'
nvidia-container-cli: initialization error: driver rpc error: timed out: unknown
Error: failed to start containers: cuda-vl

平时很快返回的nvidia-smi命令变得需要执行很久（没有报错）
用nvidia-container-cli -k -d /dev/tty info命令发现有个rpc service拉不起来

　　解决办法：开启显卡的持久模式：nvidia-smi -pm ENABLED。参考：https://blog.csdn.net/weixin_47464132/article/details/130340929

　　绕过的弯：

曾一度以为是防火墙导致rpc service不通。以为是之前动了iptables的规则，清理掉了docker相关的一些规则，里面应该有端口开放规则被一起清掉了，事实并非如此。
以为是驱动或系统内核出问题了，但重装、升级nvidia驱动、重装docker也然并卵。

　　困惑：本来正常工作的系统，是什么触发了显卡工作模式由on变成了Off？附上没有深入研究的官网关于Driver Persistence的描述

posted @ 2024-10-05 20:44 badwood 阅读(45) 评论(0) 编辑收藏举报

刷新页面返回顶部

nvidia工作模式变化引起的问题

公告