dell PowerEdge R720 自动重启分析
一,问题描述:
在同一批服务器当中,碰到这样一台服务器,如果不跑任何服务时没有问题,但一跑任务就是自动重启。既然同样的系统别的服务器都没出现这种问题,此时通过快速服务代码找dell售后。
二,安装日志收集工具Dell System E-Support Tool (DSET) 3.5.1 - [Linux 64-bit],下载地址:
http://downloads.dell.com/FOLDER01894671M/1/dell-dset-lx64-3.5.1.101.bin
下载后:
chmod +x dell-dset-lx64-3.5.1.101.bin
./dell-dset-lx64-3.5.1.101.bin
版权声明,直接按q退出即可。如果提示这个,只需要到/opt/dell/advdiages/dest/uninstall.sh 卸载即可。
Dell System E-Support Tool 3.5.1 is already installed on your system.
Uninstall DSET by running uninstall.sh from the /opt/dell/advdiags/dset location, and then install this version of DSET.
按y同意后
./dell-dset-lx64-3.5.1.101.bin
选择2后,弹出下面对话框
等待收集完后,默认存储在当前目录下,下载下来查看日志中的错误。
三,分析日志,解压需要输入密码,密码是dell。解压完后,用dsetreport.hta查看日志。
红色打X的时间跟系统自动重启时间能够对应后,此时DELL的回复是如下:
这个报错CPU 1 M01 VDDQ PG voltage is outside of range.,但是cpu 及电压又都是正常的。
建议您机器关机拔除所有电源,长按开机按钮30s-60s 后在 接上电源线开机,一般报错就会消失。
另外更新下bios 版本到最新,更新方法直接在linux 系统下运行更新程序即可(更新过程中请勿断电)
Bios 下载地址
Bios Firmware Version 2.1.3, Released 12/18/2013, Recommended, requires immediate reboot
Red Hat: http://downloads.dell.com/FOLDER01866020M/1/BIOS_3VRRM_LN_2.1.3.BIN