删除osd后引起的CEPHADM_FAILED_DAEMON错误

   

   

CEPHADM_FAILED_DAEMON: 1 failed cephadm daemon(s)

   

   

图形界面下 mark out 并delete一块硬盘后,系统健康状态显示daemon守护进程ERROR状态

   

Mark OSD flags (out, in, down, lost, …)

Note: osd must be marked down before marking lost.

   

   

   

没有勾选保留OSD ID,新加入的硬盘会使用到旧硬盘的OSD ID

   

   

   

如果是用命令行,操作如下:

   

将节点状态标记为out (节点已经不再提供服务)

ceph osd out osd.3

   

从crush中移除节点(不删除会影响到当前主机的host crush weight)

ceph osd crush remove osd.3

   

删除节点

ceph osd rm osd.3

   

   

删除节点认证(不删除编号会占住)

ceph auth ls

ceph auth del osd.3

   

   

   

列出所有daemons,确认哪个有异常

ceph orch ps

   

   

ceph orch daemon stop osd.3

重启节点后后还是会自动启动daemon进程

   

强制删除

ceph orch daemon rm osd.3 --force

    

重启后,系统Health OK

   

 

 

可能出现的异常:

前面因没有保留OSD ID,新加入的硬盘会使用此ID,如果此时删除错误的daemon,会连同将使用相同OSD ID的正常daemon一起删除,引起所在节点启动daemon时出错

   

   

   

   

   

ssh-copy-id -f -i ceph.pub root@ceph-mon2

重新复制ceph.pub并重启ceph-mon2,至此health OK

   

   

   

   

   

posted @ 2021-07-17 10:33  ST运维  阅读(3196)  评论(0编辑  收藏  举报