记录一次实验室显卡服务器崩溃事件(Ubuntu18.04 server系统,4块NVIDIA的特斯拉显卡)
系统报错(显示屏上的错误):
系统中的日志文件中所有的log文件都没有记录这次崩溃事件。
不过根据屏幕上显示出的报错,大致估计为显卡的问题:
重启后查看显卡地址:
发现报错的显卡是 0号显卡。个人估计就是实验室的很多本科生不太会指定显卡号,所以0号显卡上运行的程序较多,导致冲突,不过这也只是猜测。同时这个问题也可能是显卡的工作模式设置不当等原因产生的,于是将显卡的工作模式调为 Persistence-M (Persistence Mode) ,具体解释看前文:https://www.cnblogs.com/devilmaycry812839668/p/14799016.html 。
如果驱动可以一直加载到系统中,直观感觉应该会减少显卡工作报错的现象,不过这也只是猜测。
=============================================
本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址,还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏未加标注处,如有侵权请与博主联系。
如果未特殊标注则为原创,遵循 CC 4.0 BY-SA 版权协议。
posted on 2021-05-22 16:00 Angry_Panda 阅读(321) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
2020-05-22 《Python数据可视化之matplotlib实践》 源码 第二篇 精进 第五章