Centos 服务器系统内存故障排查
该笔记主要记录一下如何排查指定服务器中的指定内存条是否损坏。
1.内存故障排查
因为 68 – 71 软SBC服务器都是Centos7系统,所以我们可以通过以下命令来排查内存是否出现损坏。
grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
1> count不为0表示有错误
2> mc代表第几个cpu,
3> csrow内存通道,
4> ch第几个内存
EDAC即error detection and correction(错误检测与纠正),是Linux系统内部的机制。在上面的日志中,可以清楚地看出是内存读错误。MC即memory controller(内存控制器)。CE则代表correctable error,是ECC内存中可以纠正的错误,相对地还有UE(uncorrectable error)。为了摸清是哪些内存出了问题,找出所有内存的CE计数,由上图可知,第四块内存出现了故障。
通过 dmidecode -t memory 命令,可以查看每个DIMM
2.CPU排查 cat /sys/devices/system/cpu/cpu*/online
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!