摘要:
在一个3个节点的ETCD集群中,有两个节点因主机断电,意外结束后无法正常启动,日志中抛以下错误: 2021-05-16 18:01:14.414073 N | etcdmain: the server is already initialized as member before, starting 阅读全文
摘要:
Kubernetes 集群中的Calico网络插件有几种网络模式,例如BGP, IPIP, VXLAN (Calico v3.7之后支持此模式),本文主要介绍IPIP模式。 Calico IPIP模式其实是利用了Linux 的tun/tap设备,对IP层的报文再加了一层IP层的封装实现的一种over 阅读全文
摘要:
最近在搭建新版本kubernetes做验证,安装完calico网络插件之后,部署应用,但是POD却启动失败,报CNI错误,具体如下: Mar 11 10:23:40 SZX-xxxxxx kubelet: E0311 10:23:40:849284 32339 cni.go:366] Error a 阅读全文
摘要:
我们有一个运行在Kubernetes上的PHP应用,每个POD由两个独立的容器组成 - Nginx和PHP-FPM。 在我们对应用进行缩容时,遇到了502错误,例如,当一个POD在结束中时,POD里面的容器无法正确关闭连接。 在这个博文中,让我们深入看一下POD的结束流程,特别是Nginx和PHP- 阅读全文
摘要:
最近遇到一个问题,在一个有700多工作节点的使用flannel网络插件的集群中,有两个工作节点相互抢占子网网段,现象总结如下: Host A加入集群,分配到了一个网段并且保存在本机/run/flannel/subnet.env文件中; Host A掉线了(flanneld服务停止,不再自动更新租约) 阅读全文
摘要:
问题 集群工作节点频繁NotReady NAME STATUS ROLE AGE VERSION 10.9.x.x NotReady <none> 120d v1.13.9 查看工作节点/var/log/messages日志,发现PLEG not healthy导致Not become not re 阅读全文
摘要:
有天,接到用户请求, 帮助排查生产环境POD反复自动重启的原因,于是登录主机,执行"kubectl describe pod <pod name> -n <namespaces>"查看,发现POD是因为OOM被杀了,然后kubelet又自动重新拉起。 State: Running Started: 阅读全文
摘要:
应用运行在k8s平台上,有时候会发现POD自动重启造成业务影响,通过kubectl describe pod可以看到POD重启的原因,如果是OOM killed,则是因为应用使用内存超过了limit,被OOM killed了。 其实,应用被OOM killed应该分为两种情况: 1. POD OOM 阅读全文
摘要:
有一天,接到用户电话,请求帮忙排除一个问题。 用户的服务是部署在k8s集群上的,通过nodePort向集群外暴露服务,前端使用了nginx做负载均衡,nginx转发到集群中三台主机上的nodePort。 问题的现象是,nginx连后端nodePort偶尔会发生connection refused,因 阅读全文