摘要: 在一个3个节点的ETCD集群中,有两个节点因主机断电,意外结束后无法正常启动,日志中抛以下错误: 2021-05-16 18:01:14.414073 N | etcdmain: the server is already initialized as member before, starting 阅读全文
posted @ 2021-06-06 18:00 雨后彩虹,如此绚烂 阅读(2423) 评论(0) 推荐(0) 编辑
摘要: Kubernetes 集群中的Calico网络插件有几种网络模式,例如BGP, IPIP, VXLAN (Calico v3.7之后支持此模式),本文主要介绍IPIP模式。 Calico IPIP模式其实是利用了Linux 的tun/tap设备,对IP层的报文再加了一层IP层的封装实现的一种over 阅读全文
posted @ 2021-03-30 17:05 雨后彩虹,如此绚烂 阅读(5876) 评论(1) 推荐(1) 编辑
摘要: 最近在搭建新版本kubernetes做验证,安装完calico网络插件之后,部署应用,但是POD却启动失败,报CNI错误,具体如下: Mar 11 10:23:40 SZX-xxxxxx kubelet: E0311 10:23:40:849284 32339 cni.go:366] Error a 阅读全文
posted @ 2021-03-14 09:32 雨后彩虹,如此绚烂 阅读(893) 评论(0) 推荐(0) 编辑
摘要: 我们有一个运行在Kubernetes上的PHP应用,每个POD由两个独立的容器组成 - Nginx和PHP-FPM。 在我们对应用进行缩容时,遇到了502错误,例如,当一个POD在结束中时,POD里面的容器无法正确关闭连接。 在这个博文中,让我们深入看一下POD的结束流程,特别是Nginx和PHP- 阅读全文
posted @ 2021-02-27 16:03 雨后彩虹,如此绚烂 阅读(1215) 评论(0) 推荐(0) 编辑
摘要: 最近遇到一个问题,在一个有700多工作节点的使用flannel网络插件的集群中,有两个工作节点相互抢占子网网段,现象总结如下: Host A加入集群,分配到了一个网段并且保存在本机/run/flannel/subnet.env文件中; Host A掉线了(flanneld服务停止,不再自动更新租约) 阅读全文
posted @ 2020-08-08 20:39 雨后彩虹,如此绚烂 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 问题 集群工作节点频繁NotReady NAME STATUS ROLE AGE VERSION 10.9.x.x NotReady <none> 120d v1.13.9 查看工作节点/var/log/messages日志,发现PLEG not healthy导致Not become not re 阅读全文
posted @ 2020-08-08 19:45 雨后彩虹,如此绚烂 阅读(782) 评论(0) 推荐(0) 编辑
摘要: 有天,接到用户请求, 帮助排查生产环境POD反复自动重启的原因,于是登录主机,执行"kubectl describe pod <pod name> -n <namespaces>"查看,发现POD是因为OOM被杀了,然后kubelet又自动重新拉起。 State: Running Started: 阅读全文
posted @ 2020-07-12 12:28 雨后彩虹,如此绚烂 阅读(3192) 评论(0) 推荐(0) 编辑
摘要: 应用运行在k8s平台上,有时候会发现POD自动重启造成业务影响,通过kubectl describe pod可以看到POD重启的原因,如果是OOM killed,则是因为应用使用内存超过了limit,被OOM killed了。 其实,应用被OOM killed应该分为两种情况: 1. POD OOM 阅读全文
posted @ 2020-07-12 10:41 雨后彩虹,如此绚烂 阅读(3318) 评论(0) 推荐(0) 编辑
摘要: 有一天,接到用户电话,请求帮忙排除一个问题。 用户的服务是部署在k8s集群上的,通过nodePort向集群外暴露服务,前端使用了nginx做负载均衡,nginx转发到集群中三台主机上的nodePort。 问题的现象是,nginx连后端nodePort偶尔会发生connection refused,因 阅读全文
posted @ 2020-07-12 10:31 雨后彩虹,如此绚烂 阅读(996) 评论(0) 推荐(0) 编辑