集群重启某一主机下所有osd down解决办法

标签（空格分隔）： ceph 运维 osd

问题描述：

掉电后，上电发现cluster中的主机node3下的所有osd都down掉了，通过命令重启node3的ceph-osd服务，osd依然无法up；通过激活集群所有osd还是不行。

[root@node1 ~]# ceph osd tree
ID CLASS WEIGHT  TYPE NAME      STATUS REWEIGHT PRI-AFF 
-1       0.05878 root default                           
-3       0.01959     host node1                         
 0   hdd 0.00980         osd.0      up  1.00000 1.00000 
 3   hdd 0.00980         osd.3      up  1.00000 1.00000 
-5       0.01959     host node2                         
 1   hdd 0.00980         osd.1      up  1.00000 1.00000 
 4   hdd 0.00980         osd.4      up  1.00000 1.00000 
-7       0.01959     host node3                         
 2   hdd 0.00980         osd.2    down        0 1.00000 
 5   hdd 0.00980         osd.5    down        0 1.00000

解决方法：

1. 删除该主机中的所有osd

通过删除osd的shell脚本的博客删除主机下的所有down掉的osd

2. 重新创建该主机下的osd

通过admin节点执行下面命令重建osd：

# ceph-deploy osd create node3:/dev/sdb2 node3:/dev/sdc2

3. 激活集群中所有osd

# ceph-deploy osd activate  node1:/dev/sdb1 node2:/dev/sdb1 node3:/dev/sdb2 node1:/dev/sdc1 node2:/dev/sdc1 node3:/dev/sdc2

验证osd是否up：

[root@node1 ~]# ceph osd tree
ID CLASS WEIGHT  TYPE NAME      STATUS REWEIGHT PRI-AFF 
-1       0.05878 root default                           
-3       0.01959     host node1                         
 0   hdd 0.00980         osd.0      up  1.00000 1.00000 
 3   hdd 0.00980         osd.3      up  1.00000 1.00000 
-5       0.01959     host node2                         
 1   hdd 0.00980         osd.1      up  1.00000 1.00000 
 4   hdd 0.00980         osd.4      up  1.00000 1.00000 
-7       0.01959     host node3                         
 2   hdd 0.00980         osd.2      up  1.00000 1.00000 
 5   hdd 0.00980         osd.5      up  1.00000 1.00000

参考文档：

http://www.cnblogs.com/boshen-hzb/p/6796604.html

posted on 2017-10-20 10:55 sisimi_2017 阅读(6497) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

sisimi的点点滴滴

导航

公告