事实: VMware ESXi 服务器
症状: PSOD
症状: LINT1 主板中断
症状: NMI 中断
原因:物理硬件事件
修复: NMI 是物理硬件事件,而不是软件事件。NMI 通常是系统 BIOS 和/或管理芯片组遇到的不可恢复情况(在特定引导周期期间持续操作的情况下)的结果。
根据 ESX 的版本和配置,NMI 日志条目可能会出现在控制台上的/var/log/vmkernel或/var/log/messages日志文件中,或者如果条件触发 VMkernel 则出现在 VMkernel 核心转储文件中紫色诊断屏幕。
NMI 事件由 CPU 通过高级可编程中断控制器 (APIC) 通过操作系统内核(在本例中为 VMkernel)路由到操作系统(在本例中为 ESX 主机)。NMI 数据通过端口 0x61(ISA 兼容寄存器地址 hex-61)传输,该端口是为 NMI 数据保留的 8 位寄存器。
NMI 事件可能由以下原因引起:
• 物理硬件故障,例如内存模块或处理器损坏。
• 关键部件的严重热循环,通常发生在长时间停机或冷却部件故障后。
• 组件运行不符合规格,例如由于涉及电压调节器模块的硬件故障而导致过压或欠压状况。
• 未经批准或不兼容的组件,例如主动内存背板,其设计修订对于机箱而言为时过早。
• 固件、BIOS 或其他组件不匹配,例如版本 X 的选项卡需要最低选项卡固件版本 Y 和最低机箱 BIOS 版本 Z。
• 紫屏导致的中断是由于硬件级别的交互故障而发生的。用于将设备的 DMA 内存从主机操作系统映射到来宾操作系统的 CPU IOMMU 功能遇到错误,无法继续。设备的 PCI ID 可以在症状部分的事件中看到(设备 007:00.0)。可以通过从 ESXi shell 运行 lspci 并将 PCI ID 与设备进行匹配来识别设备。请注意,PCI 设备可能不是原因,而只是另一个硬件组件问题的触发因素。
如果用户遇到 NMI 事件,请注意以下详细信息:
• NMI 事件发生时哪些虚拟机(如果有)已启动?
• 打开特定虚拟机的电源是否会触发NMI 事件?
• 将可疑内存模块移动到新插槽(从而提高或降低内存地址空间)是否会改变行为?
注意:更换或重新安置硬件组件不一定能帮助您确定 NMI 事件的根本原因,并且可能会导致计划外停机。
如果您遇到 NMI 事件,请向硬件供应商提供以下数据:
• 事件发生的时间范围。
• 事件发生前至少10 分钟的日志。
• 机箱诊断日志输出和管理芯片组日志输出。
• 底盘重要产品数据。
• vm-support 输出的副本。
• 相关的VMware 服务请求编号(如果已打开)。
以上是HP对这种NMI事件的KB分析,经过思考,还真有可能是硬件的问题,比较难找
最终被我发现拆了CPU,主板的CPU针脚有歪的,也不知道CPU怎么上的,退机器给供应商,换