Linux系统内存dump机制介绍（一）——kdump

按照Linux系统的设计哲学，内核只提供dump内存的机制，用户想要dump什么样的内存，dump多少内存是属于策略问题，由用户来决定。

在真实的使用场景中，主要有两种使用方式：kdump和coredump

1.kdump：dump某一个进程的地址空间来供用户在进程挂掉之后debug分析。

2.coredump：dump整个系统的内存空间，以便于系统管理员debug分析系统挂掉的原因。

本文主要描述kdump

kdump整个过程依赖kexec和一个额外的dump内核来保证整个流程正确的执行。

kdump涉及的组件：

1.kdump专用内核，通过kexec工具load到预留的内存中，供故障引导使用。

2.kexec工具，负责加载crash内核，以及一些启动参数传递。

3.makedumpfile工具，负责将故障内核的内存copy，压缩，写入指定文件。

kdump的实现

kdump整个流程涉及到两次内核启动：

1.首先是工作内核启动，包括硬件自检初始化，BootLoader加载内核并发引导内核启动，然后配置预留内存，并使用kexec工具将crash内核加载到保留内存中。

2.工作内核在遇到故障触发panic之后启动crash kernel，kexec启动crash kernel只执行内核初始化逻辑，不再做硬件自检初始化，启动速度很快。

3.crash内核加载好之后可以正常管理一部分系统资源，通过/proc/vmcore内存镜像文件，将故障内存经过压缩之后写入到硬盘的dump文件中保存。

4.捕获完毕之后重启系统，完成故障恢复。

随着系统内存的不断增大，故障恢复时间也随之线性增加，两次系统启动时间比较固定，线性增加的时间主要是受copy内存，压缩内存以及文件落盘影响。所以很多kdump优化方案主要也是针对以下几个方面实现的：

1.copy内存方面：为了减少系统调用的次数，实现了vmcore的mmap方法，可以提高copy的效率。

2.内存压缩方面：引入了压缩效率比较高的lzo算法来替换原来的gzip算法。

3.落盘方面：主要考虑并发写文件和优化io效率。

如何使用kdump：

1.修改启动参数，增加crash kernel字段，通过/proc/cmdline可以观察是否生效。

2.安装kdump组件包，包括crash kernel和kexec组件。

3.启动kdump服务，通过service命令或者/etc目录中的启动脚本启动。

4.观察/proc/iomem中是否成功load了crash kernel

关于kexec

kexec是一个快速启动kernel的机制，它运行在某一正在运行的kernel中，启动一个新的kernel（crash kernel）不用重新经过BIOS就可以完成启动。

服务器死机后，查看kernel服务

#chkconfig --list|grep kdump

#ll /var/crash/

#rpm -qa | grep crash

#rpm -qa | grep kexec

#rpm -qa | grep $(uname -r)

追踪crash日志：

#cd /var/crash/***

#crash /usr/lib/debug/lib/modules/2.6.32-358.el6.x86_64/vmlinux vmcore

命令语法是：crash debug内核 crashdump文件

debug内核的路径是：/usr/lib/debug/lib/modules/2.6.32-358.el6.x86_64/vmlinux

***debug内核和现用的版本内核必须一致

crash> files (查看最后一次操作我呢见的命令和pid)

crash> files 123 (指定pid进行查看打开了哪些文件)

crash> files 1 （pid 1 是init进程的进程号，该命令可以显示init进程打开的文件）

crash> ps (可用ps命令查看kernel crash时候的所有进程)

原文：linux系统内存dump机制介绍（一）--kdump

posted @ 2019-08-28 09:21 Qinsoo 阅读(4648) 评论(0) 编辑收藏举报

刷新页面返回顶部

Qinsoo

Linux系统内存dump机制介绍（一）——kdump

公告