maym

导航

 

 

VMware ESXi 服务器 - NMI 中断
对象名称: emr_na-kc0120179en_us
文档类型:支持信息
原所有者: KCS - VMware
披露级别:公开
版本状态:最终版
环境

事实: VMware ESXi 服务器

问题/症状

症状: PSOD

症状: LINT1 主板中断

症状: NMI 中断

原因

原因:物理硬件事件

答案/解决方案

修复: NMI 是物理硬件事件,而不是软件事件。NMI 通常是系统 BIOS 和/或管理芯片组遇到的不可恢复情况(在特定引导周期期间持续操作的情况下)的结果。

 

根据 ESX 的版本和配置,NMI 日志条目可能会出现在控制台上的/var/log/vmkernel/var/log/messages日志文件中,或者如果条件触发 VMkernel 则出现在 VMkernel 核心转储文件中紫色诊断屏幕。

 

NMI 事件由 CPU 通过高级可编程中断控制器 (APIC) 通过操作系统内核(在本例中为 VMkernel)路由到操作系统(在本例中为 ESX 主机)。NMI 数据通过端口 0x61(ISA 兼容寄存器地址 hex-61)传输,该端口是为 NMI 数据保留的 8 位寄存器。

 

NMI 事件可能由以下原因引起:

 

• 物理硬件故障,例如内存模块或处理器损坏。

• 关键部件的严重热循环,通常发生在长时间停机或冷却部件故障后。

• 组件运行不符合规格,例如由于涉及电压调节器模块的硬件故障而导致过压或欠压状况。

• 未经批准或不兼容的组件,例如主动内存背板,其设计修订对于机箱而言为时过早。

• 固件、BIOS 或其他组件不匹配,例如版本 X 的选项卡需要最低选项卡固件版本 Y 和最低机箱 BIOS 版本 Z。

• 紫屏导致的中断是由于硬件级别的交互故障而发生的。用于将设备的 DMA 内存从主机操作系统映射到来宾操作系统的 CPU IOMMU 功能遇到错误,无法继续。设备的 PCI ID 可以在症状部分的事件中看到(设备 007:00.0)。可以通过从 ESXi shell 运行 lspci 并将 PCI ID 与设备进行匹配来识别设备。请注意,PCI 设备可能不是原因,而只是另一个硬件组件问题的触发因素。

 

如果用户遇到 NMI 事件,请注意以下详细信息:

 

• NMI 事件发生时哪些虚拟机(如果有)已启动?

• 打开特定虚拟机的电源是否会触发NMI 事件?

• 将可疑内存模块移动到新插槽(从而提高或降低内存地址空间)是否会改变行为?

 

注意:更换或重新安置硬件组件不一定能帮助您确定 NMI 事件的根本原因,并且可能会导致计划外停机。

 

如果您遇到 NMI 事件,请向硬件供应商提供以下数据:

 

• 事件发生的时间范围。

• 事件发生前至少10 分钟的日志。

• 机箱诊断日志输出和管理芯片组日志输出。

• 底盘重要产品数据。

• vm-support 输出的副本。

• 相关的VMware 服务请求编号(如果已打开)。

 

以上是HP对这种NMI事件的KB分析,经过思考,还真有可能是硬件的问题,比较难找

最终被我发现拆了CPU,主板的CPU针脚有歪的,也不知道CPU怎么上的,退机器给供应商,换

 

posted on 2024-02-20 16:46  maym  阅读(56)  评论(0编辑  收藏  举报