随笔分类 - kubernetes
kubernetes,简称K8s,是用8代替名字中间的8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。
摘要:前言 在查看 pod 运行状态时,发现有的 pod 的状态是 Evicted,通过 describe 去查看发现了 The node had condition: [DiskPressure]. 的报错 原因是 kubelet 检测到本地磁盘使用率超过了 85% ,这是 kubelet 的默认配置:
阅读全文
摘要:前言 在 Ubuntu 20.04 上的一台曾作为 Kubernetes 节点的服务器,退役后直接用于运行 docker-compose 部署的业务容器。核心症状是:使用自定义桥接网络的容器无法解析外部域名,且无法访问外部网络(ping 外部 IP 100% 丢包),而使用 --network ho
阅读全文
摘要:前言 在使用 Docker Compose 部署微服务架构时,发现部分服务无法通过容器名称解析其他服务,导致服务启动失败并进入重启循环。 问题现象 初始错误 启动 Docker Compose 时,出现以下错误: docker compose --env-file .env --env-file .
阅读全文
摘要:前言 在 Kubernetes 集群运维中,经常需要对单个节点进行维护,比如升级内核、重装 NVIDIA 驱动、扩容磁盘甚至重装系统。这时最核心的需求是:安全地将节点隔离出来,确保不影响集群其他部分,同时彻底清理本地残留,避免容器和 Pod 反复重建。 下面分享一套经过实战验证的完整流程,适用于大多
阅读全文
摘要:在 Kubernetes 的 kubectl describe 命令输出中,liveness 和 readiness 探针(probe)的阈值字段如 #success=1 和 #failure=3 带有 # 前缀是正确的,并且这是 Kubernetes 的标准显示方式。 解释: # 的含义:# 前缀
阅读全文
摘要:在 Kubernetes(k8s)中,使用 kubectl exec 命令进入容器时,默认用户取决于容器镜像(Dockerfile)中定义的 USER 指令。如果镜像未指定任何用户(这是大多数基础镜像如 ubuntu 或 alpine 的默认情况),则默认用户为 root(UID 0)。 详细说明
阅读全文
摘要:在 Kubernetes(k8s)中,ephemeral-storage 是一种用于限制 Pod 或容器使用的临时存储资源的机制。临时存储(ephemeral storage)通常指容器在运行时使用的本地磁盘空间,包括容器的可写层(如容器镜像的临时文件)、日志文件、以及 Pod 挂载的空卷(如 em
阅读全文
摘要:前言 随着微服务架构的普及,我们的应用被拆分成越来越多的小服务,部署和运维的复杂度呈指数级增长。如何高效管理这些服务?如何保证它们的高可用?如何实现弹性扩缩容?这些问题一直困扰着技术团队。 容器技术(如 Docker)的出现解决了"环境一致性"的问题,但随之而来的是更大的挑战:如何编排和管理成百上千
阅读全文
摘要:配置共享存储 Prometheus 需要配置持久化存储,防止数据丢失 服务端 服务端安装 NFS 服务 sudo apt install nfs-kernel-server 创建共享目录,在服务器端创建 /nfs 目录。 mkdir /nfs chmod -R 777 /nfs # 设置文件权限 n
阅读全文
摘要:第一种:在线安装 helm 在线部署 Prometheus,通过 value.yaml 进行简单配置 helm repo add prometheus-community https://prometheus-community.github.io/helm-charts helm repo upd
阅读全文
摘要:环境依赖 以下操作,无特殊说明,所有节点都需要执行 安装 ssh 服务 安装 openssh-server sudo apt-get install openssh-server 修改配置文件 vim /etc/ssh/sshd_config 找到配置项 LoginGraceTime 120 Per
阅读全文
摘要:前言 k8s 在部署 pod 时报错: Warning FailedCreatePodSandBox 9m35s kubelet Failed to create pod sandbox: rpc error: code = Unknown desc = [failed to set up sand
阅读全文
摘要:前言 k8s 集群中,使用 kubelet 报错,如下: The connection to the server 127.0.0.1:6443 was refused - did you specify the right host or port? 排查思路 1. 检查环境是否正常 1.1 确认
阅读全文
摘要:前言 kubeadm 初始化或 join 时,报错: [etcd] Creating static Pod manifest for local etcd in "/etc/kubernetes/manifests" I1122 10:50:39.224341 51720 local.go:65]
阅读全文
摘要:前言 k8s node 节点 join master 后,状态报错:NOT READY 查看 kubelet 日志 journalctl -xeu kubelet 报错如下:Container runtime network not ready" networkReady="NetworkReady
阅读全文
摘要:前言 Kubernetes v1.23 之前,Job 在处于 Completed 后,默认是不会被清理的。 完成的 Job 通常不需要留存在系统中。在系统中一直保留它们会给 API 服务器带来额外的压力。 Kubernetes v1.23 之后, TTL 控制器所提供的 TTL 机制。 通过设置 J
阅读全文
摘要:创建示例用户 在本指南中,我们将了解如何使用 Kubernetes 的服务帐户机制创建新用户、授予该用户管理员权限并使用与该用户绑定的承载令牌登录仪表板。 对于以下每个和的代码片段ServiceAccount,ClusterRoleBinding您都应该将它们复制到新的清单文件(如)中,dashbo
阅读全文
摘要:前言 seldon core 报错:x509: certificate has expired or is not yet valid: current time 这是因为 seldon core 默认的证书有效期为一年,需要 helm 重新安装才行,或者在安装seldon core时启用了cert
阅读全文
摘要:前言 k8s 集群 node节点报错:The connection to the server localhost:8080 was refused - did you specify the right host or port? 通过 kubectl get nodes 查看集群的情况,出现了报
阅读全文
摘要:依赖安装 准备工作需要在所有节点上进行。 安装 ssh 服务 安装 openssh-server sudo apt-get install openssh-server 修改配置文件 vim /etc/ssh/sshd_config 找到配置项 LoginGraceTime 120PermitRoo
阅读全文

浙公网安备 33010602011771号