记录一次实验室linux系统的GPU服务器死机故障的排查——Linux系统的Power States
实验室的ubuntu服务器不知怎么的突然又崩溃了,死机重启,然后查看日志,发现了下面的情况:
由于从其他的日志中知道是显卡的问题引起的死机,而这个显卡的地址正好是D9:00,这部分的日志就不给出了。结合上面给出的日志,从这个Power State中可以判断显卡崩溃的时候该显卡的电源状态转为了D0。
-------------------------------------------
那么我们根据这些信息可以得到一个什么结论呢(或许是猜测)?
网上查了下资料:
http://www.winwin7.com/JC/5847.html
https://www.xitongcheng.com/jiaocheng/win10_article_57154.html
https://blog.csdn.net/zhaopeng01zp/article/details/124424328
可以知道D0的这个电源状态是最高的,这也就是意味着系统死机时的3号显卡的电源状态最高,而此时该显卡崩溃从而导致系统死机,因此我们就可以预估出此时的该显卡功率是最高的,此时的该卡GPU使用率也是极高的,由此我们就可以猜测出造成该显卡崩溃最后导致整个系统死机的主要原因就是3号显卡满功率运行造成的问题。
个人一个观点,如果linux系统死机,并且该死机是由某个计算硬件设备造成的,如本文中的GPU,而该设备造成系统崩溃的同一时间的电源状态为最高的D0,那么就有理由怀疑导致此次死机的主要原因就是该计算设备的满负荷运行造成的。
=================================================
posted on 2022-11-01 23:13 Angry_Panda 阅读(857) 评论(8) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
2021-11-01 国产操作系统——银河麒麟V10 SP1使用小结
2021-11-01 【转载】 银河麒麟V10系统安装U盘制作
2021-11-01 国产CPU——兆芯(先开)KX-6640MA 使用感受
2018-11-01 深度学习 对抗生成网络 使用生成对抗网络生成图片