随笔分类 - kubernetes问题处理
摘要:说一个残忍的Kubernetes 运维真相,Kubernetes故障排除真的很难.....这是一张Kubernetes故障排查流程图,用于帮助用户诊断和解决Kubernetes集群中Pod、Ingress和Service的常见问题。通过一系列的问题和对应的命令(如kubectl get pods,
阅读全文
摘要:common: kubectl get deployment <资源名称> --export -o yaml 需要注意的是,导出的yaml文件缺少namespace的相关定义
阅读全文
摘要:问题描述 当 k8s 集群运行日久以后,有的 node 无法再新建 pod,并且出现如下错误,当重启服务器之后,才可以恢复正常使用。查看 pod 状态的时候会出现以下报错。 applying cgroup … caused: mkdir …no space left on device 或者在 de
阅读全文
摘要:1.国内镜像源: --image-repository registry.cn-hangzhou.aliyuncs.com/google_containers 2.根据kubeadm版本查看or下载k8s集群所需的镜像 kubeadm config images list kubeadm confi
阅读全文
摘要:前言: 将服务与集群迁移到新的服务器上后,出现了一个故障,访问容器无法访问到大量数据。访问单行数据是可以实现的,而大量数据再本地,本机可以访问,跨容器则不行。 故障分析: 可以肯定服务器间的通信是没有问题的,包括udp端口的问题也验证没有问题,多次测试,网上说可能是docker网卡的mtu导致的故障
阅读全文
摘要:calico问题排障 这个问题几乎每个人都会遇到。因为官方的step by step太傻白甜,没有把IP_AUTODETECTION_METHOD这个IP检测方法的参数放入calico.yaml中,calico会使用第一个找到的network interface(往往是错误的interface),导
阅读全文
摘要:前言: 生产环境的k8s为了追求稳定,不能直接安装最新版本,随着新版本功能的稳定,很多新功能是老版本不具备的,这时进行一次稳妥的升级便是一个不错的选择。 以升级k8s集群v1.13.3到v1.14.0为例 升级次序:先升级master,后升级node 升级之前的准备:确保已经备份了etcd数据库与m
阅读全文
摘要:前言: kubeadm安装的k8s集群有一个证书问题,证书的有效期为一年,过期的话kubectl命令就会异常。解决办法如下: 查看证书是否有效: sudo openssl x509 -in /etc/kubernetes/pki/apiserver.crt -noout -text |grep '
阅读全文
摘要:前言: k8s集群的灾备与恢复基于etcd的灾备与恢复,etcd的数据默认会存放在命令的工作目录(即master的/var/lib/etcd/)中,数据所在的目录,会被分为两个文件夹snap与wal: snap: 存放快照数据,etcd防止WAL文件过多而设置的快照,存储etcd数据状态。 wal:
阅读全文