【Ceph运维】crash 模块
【Ceph运维】crash 模块
目录
一、介绍
ceph 的 crash模块用来收集守护进程出现 crashdumps (崩溃)的信息,并将其存储在ceph集群中,以供以后分析。
默认信息是保存在/var/lib/ceph/crash/posted 中,可以通过"crash dir" 变量来改变保存路径。这个模块允许将元数据保存在monitors的存储中。具体现象如下:
mgr/crash/warn_recent_interval
[default: 2 weeks] controls what constitutes “recent” for the purposes of raising theRECENT_CRASH
health warning.新产生的crash 信息会提示多久,默认是两周;改warinning会在ceph -s的时间显示两周。这个值可以被修改
mgr/crash/retain_interval
[default: 1 year] controls how long crash reports are retained by the cluster before they are automatically purged.系统保存crash时间,默认是1年,才会自动清除。这个值可以被修改
二、相关操作
1、开启关闭crash模块
ceph mgr module enable crash
2、保存一个crash 信息
ceph crash post -i <metafile>
3、列出所有的crash 的时间戳和id,并存档crash 信息
ceph crash ls
4、列出新的crash 的时间戳和id
ceph crash ls-new
5、显示一个crash 的详细信息
ceph crash info <crashid>
6、列出crash信息的汇总结果
ceph crash stat
7、清楚超过保留天数(keep )的crash记录。keep 必须为整数
ceph crash prune <keep>
8、删除一个指定crash 信息
ceph rm <crashid>
9、保存一个新产生的指定的crash 记录
ceph crash archive <crashid>
10、保存所有新的产生的crash记录
ceph crash archive-all