记录一次实验室linux系统的GPU服务器死机故障的排查——Linux系统的Power States

实验室的ubuntu服务器不知怎么的突然又崩溃了,死机重启,然后查看日志,发现了下面的情况:

 

 

 

 

由于从其他的日志中知道是显卡的问题引起的死机,而这个显卡的地址正好是D9:00,这部分的日志就不给出了。结合上面给出的日志,从这个Power State中可以判断显卡崩溃的时候该显卡的电源状态转为了D0。

 

 

 

-------------------------------------------

 

 

那么我们根据这些信息可以得到一个什么结论呢(或许是猜测)?

网上查了下资料:

Power States(MSDN 翻译)

http://www.winwin7.com/JC/5847.html

https://www.xitongcheng.com/jiaocheng/win10_article_57154.html

https://blog.csdn.net/zhaopeng01zp/article/details/124424328

 

 

 

 

 

 

可以知道D0的这个电源状态是最高的,这也就是意味着系统死机时的3号显卡的电源状态最高,而此时该显卡崩溃从而导致系统死机,因此我们就可以预估出此时的该显卡功率是最高的,此时的该卡GPU使用率也是极高的,由此我们就可以猜测出造成该显卡崩溃最后导致整个系统死机的主要原因就是3号显卡满功率运行造成的问题。

 

 

 

个人一个观点,如果linux系统死机,并且该死机是由某个计算硬件设备造成的,如本文中的GPU,而该设备造成系统崩溃的同一时间的电源状态为最高的D0,那么就有理由怀疑导致此次死机的主要原因就是该计算设备的满负荷运行造成的。

 

 

 

=================================================

 

posted on   Angry_Panda  阅读(857)  评论(8编辑  收藏  举报

相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
历史上的今天:
2021-11-01 国产操作系统——银河麒麟V10 SP1使用小结
2021-11-01 【转载】 银河麒麟V10系统安装U盘制作
2021-11-01 国产CPU——兆芯(先开)KX-6640MA 使用感受
2018-11-01 深度学习 对抗生成网络 使用生成对抗网络生成图片

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示