Dell R720 内存纠错比率超限 更换内存引起的故障

Dell R720 内存纠错比率超限 更换内存引起的故障

 

0x01 前言

服务器里有一根内存出现异常,在除错的过程中我详细了解R720的内存配置。我在这里将除错过程和基本配置信息记录下来。

0x02 错误

在上周,我发现服务器后部的状态灯不再是正常的蓝灯常亮状态,而是黄色闪烁的状态。根据错误日志,可以确定A5插槽的内存纠错比超过设定的上限:

其实这根内存目前还可以使用,但推荐尽快更换。在Dell的知识库中有以下信息:

0x03 修复

修复过程很简单,先关闭系统,更换坏掉的内存条即可:

0x04 插槽配置

系统包含 24 个内存插槽,分为两组(每组 12 个),每个处理器一组。每组的 12 个插槽分入四个通道。在每个通道中,第一个插槽的释放拉杆标为白色,第二个插槽的标为黑色,第三个插槽的标为绿色。

插槽 A1 至 A12 中的 DIMM 分配给处理器 1,插槽 B1 至 B12 中的 DIMM 分配给处理器 2:

内存通道按如下方式配置:

处理器 通道 插槽
1 0 A1、A5、A9
1 A2、A6、A10
2 A3、A7、A11
3 A4、A8、A12
2 0 B1、B5、B9
1 B2、B6、B10
2 B3、B7、B11
3 B4、B8、B12

0x05 频率

我的服务器支持 DDR3 不带缓存的 ECC DIMM (ECC UDIMM)、带寄存器的 DIMM (RDIMM) 以及负载降低的 DIMM (LRDIMM)。它支持 DDR3 和 DDR3L 电压规格。

其中内存总线操作频率可以是 1866 MT/s、1600 MT/s、1333 MT/s、1066 MT/s 或 800 MT/s。实际中我的服务器内存运行在1066 MT/s频率中,因为服务器中12根的内存频率为1066。

另外根据内存条规格与电压的不同,频率也有所变化,配置信息如下表:

0x06 注意事项

  • UDIMM、RDIMM 和 LRDIMM 不得混用。
  • 一个通道中最多可填充两个 UDIMM。
  • 每个通道中最多可填充两个四列 RDIMM 和三个双列或单个 RDIMM。当在具有白色释放拉杆的第一个插槽中填充四列 RDIMM 时,具有绿色释放拉杆的通道中第三个 DIMM 插槽无法填充。
  • 无论列数是多少,最多可以安装三个 LRDIMM。
  • 仅在安装处理器时填充 DIMM 插槽。对于单处理器系统,插槽 A1 至 A12 可用。对于双处理器系统,插槽 A1 至 A12 和插槽 B1 至 B12 可用。
  • 先填充具有白色释放卡舌的所有插槽,再填充具有黑色卡舌的插槽,最后填充具有绿色卡舌的插槽。
  • 如果在具有白色释放卡舌的第一个插槽中填充四列 RDIMM,则请勿填充具有绿色释放卡舌的通道中的第三个 DIMM 插槽。
  • 按以下顺序按最高列数填充插槽 — 首先填充具有白色释放拉杆的插槽,再填充具有黑色释放拉杆的插槽,最后填充具有绿色释放拉杆的插槽。例如,如果要混用四列和双列 DIMM,则填充具有白色释放卡舌的插槽中的四列 DIMM,再填充具有黑色释放卡舌的插槽中的双列 DIMM。
  • 在双处理器配置中,每个处理器的内存配置应该相同。例如,如果填充处理器 1 的插槽 A1,则填充处理器 2 的插槽 B1,以此类推。
  • 如果遵循其它内存安装规则,则不同大小的内存模块可以混用(例如,2 GB 和 4 GB 内存模块可以混用)。
  • 每个处理器一次填充四个 DIMM(每个通道一个 DIMM)以最大化性能。
  • 如果安装不同速度的内存模块,它们将以最低或较低安装内存模块速度运行(具体取决于系统 DIMM 配置)。

0x07 配置示例

  • 1R、2R 和 4R 分别表示单列、双列和四列 DIMM。

单个处理器的内存配置示例:

两个处理器的内存配置示例:

注意:在两个处理器的内存配置中,分别使用16G和8G内存进行搭配配置,需要遵循以下规则:

0x08 结语

有些企业并没有将内存插槽满配,而是使用大容量内容如单根64GB或更大的内存进行配置。这时候就需要参考以上表格或参考配置手册。

在安装错误的情况下并不会导致系统烧坏,系统在自检的时候会提示错误,只需要根据错误日志重新配置即可。

posted @ 2024-04-29 13:51  人生苦短,知足常乐!  阅读(444)  评论(0编辑  收藏  举报