【Ceph运维】crash 模块

【Ceph运维】crash 模块

一、介绍

ceph 的 crash模块用来收集守护进程出现 crashdumps (崩溃)的信息,并将其存储在ceph集群中,以供以后分析。

默认信息是保存在/var/lib/ceph/crash/posted 中,可以通过"crash dir" 变量来改变保存路径。这个模块允许将元数据保存在monitors的存储中。具体现象如下:

  • mgr/crash/warn_recent_interval [default: 2 weeks] controls what constitutes “recent” for the purposes of raising the RECENT_CRASH health warning.

    新产生的crash 信息会提示多久,默认是两周;改warinning会在ceph -s的时间显示两周。这个值可以被修改

  • mgr/crash/retain_interval [default: 1 year] controls how long crash reports are retained by the cluster before they are automatically purged.

    系统保存crash时间,默认是1年,才会自动清除。这个值可以被修改

二、相关操作

1、开启关闭crash模块

ceph mgr module  enable crash

2、保存一个crash 信息

ceph crash post -i <metafile>

3、列出所有的crash 的时间戳和id,并存档crash 信息

ceph crash ls

4、列出新的crash 的时间戳和id

ceph crash ls-new

5、显示一个crash 的详细信息

ceph crash info <crashid>

6、列出crash信息的汇总结果

ceph crash stat

7、清楚超过保留天数(keep )的crash记录。keep 必须为整数

ceph crash prune <keep>

8、删除一个指定crash 信息

ceph rm <crashid>

9、保存一个新产生的指定的crash 记录

ceph crash archive <crashid>

10、保存所有新的产生的crash记录

ceph crash archive-all

三、参考文档

ceph-crash

posted @ 2020-04-01 11:18  yanling0813  阅读(2467)  评论(0编辑  收藏  举报