记一次dell服务器内存告警故障
起因:
公司新采购了一批DDR 2666MHZ 内存使用到线上,机房运维小A负载扩容内存到一批DELL R740xd 服务器上。这是一个简单的工作,体力为主。刚刚吃完午饭接到项目组电话,催我回来处理大问题。一台服务器内存持续告警,查不到原因,明天上午就要交给业务组使用了,今天还没有故障清零
询问操作:
1. 新采购内存有一个报废件,在内存卡槽B3 B4 上试了两次无法开机
2. 更换新内存条后,在内存卡槽B4 正常开机并进入IDRAC 清理了系统日志,重启了idrac racadm reset cold
3. 发现dell_exporter 内存告警持续处在。关机调整内存到B3卡槽 开机后复现问题
4. 内存压测后 主机内存持续95% 10分钟无故障点
解决问题:
dell_exporter 使用omreport 来收集服务器信息。
omreport chassis
Health
Main System Chassis
SEVERITY : COMPONENT
Ok : Fans
Ok : Intrusion
Critical : Memory
Ok : Power Supplies
Ok : Power Management
Ok : Processors
Ok : Temperatures
Ok : Voltages
Ok : Hardware Log
Ok : Batteries
问题在这里 om 中记录了一份内存错误日志信息也要清除
dcicfg command=clearmemfailures Clearing failures using mask: 524287 A1: ok A3: ok B1: ok B3: ok omreport chassis Health Main System Chassis SEVERITY : COMPONENT Ok : Fans Ok : Intrusion Ok : Memory Ok : Power Supplies Ok : Power Management Ok : Processors Ok : Temperatures Ok : Voltages Ok : Hardware Log Ok : Batteries
解决问题 ,赶紧撤了回家还得肝原神哪
本文来自博客园,作者:萱乐庆foreverlove,转载请注明原文链接:https://www.cnblogs.com/leleyao/p/15721367.html
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步