ceph 集群 slow requests are blocked

最近在本机 vmware 中搭建 devops 环境时,使用 ceph rbd(StorageClass方式) 把 ceph 集成到 k8s 中去,

但是只要 pod 有读写,ceph 集群 health 状态就会报错:

[root@ceph01 ceph-cluster]# ceph -s
  cluster:
    id:     1ff59119-cfe3-43a3-acb5-e1e93f9963ab
    health: HEALTH_WARN
            4 osds down
            Long heartbeat ping times on back interface seen, longest is 75927.194 msec
            Long heartbeat ping times on front interface seen, longest is 73485.542 msec
            Reduced data availability: 77 pgs peering
            Degraded data redundancy: 11/1596 objects degraded (0.689%), 9 pgs degraded
            application not enabled on 1 pool(s)
            51 slow requests are blocked > 32 sec. Implicated osds 5,6,7,8,9,10,11,12,13,14
            clock skew detected on mon.ceph03

这时候,集群访问不正常,会非常慢,部分 osd 会被标记为 down,尝试从 luminous(12) 版本升级到 octopus(15) 版本,问题依旧。

让后尝试百度搜索报错 slow requests are blocked ,大多数答案都是重启 osd 进程解决,但是使用这种方法还是问题依旧。

依稀记得看了一篇文章(但是没有保存书签,找不到了)说可能跟集群网络有关,于是尝试把 public 和 cluster 网络合并:

ceph-deploy new ceph01 ceph02 ceph03 --cluster-network 10.10.20.0/24 --public-network
 10.10.10.0/24

变更为

ceph-deploy new ceph01 ceph02 ceph03 --cluster-network 10.10.10.0/24 --public-network 
10.10.10.0/24

神奇的事情发生了,居然问题解决了,具体原因未知,这里就做个记录吧。

posted @   leffss  阅读(861)  评论(0编辑  收藏  举报
编辑推荐:
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 一个奇形怪状的面试题:Bean中的CHM要不要加volatile?
· [.NET]调用本地 Deepseek 模型
阅读排行:
· 全网最简单!3分钟用满血DeepSeek R1开发一款AI智能客服,零代码轻松接入微信、公众号、小程
· .NET 10 首个预览版发布,跨平台开发与性能全面提升
· 《HelloGitHub》第 107 期
· 全程使用 AI 从 0 到 1 写了个小工具
· 从文本到图像:SSE 如何助力 AI 内容实时呈现?(Typescript篇)
点击右上角即可分享
微信分享提示