随笔分类 -  kubernetes

kubernetes,简称K8s,是用8代替名字中间的8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。
摘要:前言 k8s 集群中,使用 kubelet 报错,如下: The connection to the server 127.0.0.1:6443 was refused - did you specify the right host or port? 排查思路 1. 检查环境是否正常 1.1 确认 阅读全文
posted @ 2025-02-07 10:53 牛奔 阅读(314) 评论(0) 推荐(0) 编辑
摘要:前言 kubeadm 初始化或 join 时,报错: [etcd] Creating static Pod manifest for local etcd in "/etc/kubernetes/manifests" I1122 10:50:39.224341 51720 local.go:65] 阅读全文
posted @ 2024-11-22 14:32 牛奔 阅读(339) 评论(0) 推荐(0) 编辑
摘要:前言 k8s node 节点 join master 后,状态报错:NOT READY 查看 kubelet 日志 journalctl -xeu kubelet 报错如下:Container runtime network not ready" networkReady="NetworkReady 阅读全文
posted @ 2024-11-22 14:24 牛奔 阅读(195) 评论(0) 推荐(0) 编辑
摘要:前言 Kubernetes v1.23 之前,Job 在处于 Completed 后,默认是不会被清理的。 完成的 Job 通常不需要留存在系统中。在系统中一直保留它们会给 API 服务器带来额外的压力。 Kubernetes v1.23 之后, TTL 控制器所提供的 TTL 机制。 通过设置 J 阅读全文
posted @ 2024-11-18 09:22 牛奔 阅读(35) 评论(0) 推荐(0) 编辑
摘要:创建示例用户 在本指南中,我们将了解如何使用 Kubernetes 的服务帐户机制创建新用户、授予该用户管理员权限并使用与该用户绑定的承载令牌登录仪表板。 对于以下每个和的代码片段ServiceAccount,ClusterRoleBinding您都应该将它们复制到新的清单文件(如)中,dashbo 阅读全文
posted @ 2024-09-11 18:40 牛奔 阅读(1368) 评论(0) 推荐(0) 编辑
摘要:前言 seldon core 报错:x509: certificate has expired or is not yet valid: current time 这是因为 seldon core 默认的证书有效期为一年,需要 helm 重新安装才行,或者在安装seldon core时启用了cert 阅读全文
posted @ 2024-08-20 08:57 牛奔 阅读(49) 评论(0) 推荐(0) 编辑
摘要:前言 k8s 集群 node节点报错:The connection to the server localhost:8080 was refused - did you specify the right host or port? 通过 kubectl get nodes 查看集群的情况,出现了报 阅读全文
posted @ 2024-05-29 11:17 牛奔 阅读(1127) 评论(2) 推荐(0) 编辑
摘要:依赖安装 准备工作需要在所有节点上进行。 安装 ssh 服务 安装 openssh-server sudo apt-get install openssh-server 修改配置文件 vim /etc/ssh/sshd_config 找到配置项 LoginGraceTime 120PermitRoo 阅读全文
posted @ 2024-04-28 20:14 牛奔 阅读(1537) 评论(0) 推荐(0) 编辑
摘要:前言 ​当要从非安全的镜像仓库中进行 Pull、Push 时,会遇到 x509: certificate signed by unknown authority 错误提示; 这是由于镜像仓库是可能是 http 服务,或者 https 的证书是自签名的就会出现这个问题。 Containerd 可以配置 阅读全文
posted @ 2024-04-28 19:11 牛奔 阅读(6666) 评论(0) 推荐(0) 编辑
摘要:前言 AI 落地时,在某些场景下 AI 模型在训练或者是推理时,其算力要求不需要占用整卡的 GPU,比如只需要0.5卡 GPU 即可满足需求。 在这种情况下,可以使用 GPU 虚拟化技术来解决这个问题,将整卡的 GPU 虚拟化为两个0.5卡的 GPU,这样就可以在一张卡上同时跑两个 AI 训练或者 阅读全文
posted @ 2024-04-26 19:49 牛奔 阅读(1062) 评论(0) 推荐(0) 编辑
摘要:前言 Kubernetes 集群中 Docker 如何使用 GPU,请看这一篇 docker配置Nvidia环境,使用GPU 本文着重讲 Containerd 如何作为容器运行时来使用 GPU CRI Plugin Config Guide CRI 插件配置指南 https://github.com 阅读全文
posted @ 2024-04-25 09:04 牛奔 阅读(2644) 评论(0) 推荐(0) 编辑
摘要:前言 在搭建好 kubernetes 环境后,master 节点拥有 control-plane 权限,可以正常使用 kubectl。 但其他 node 节点无法使用 kubectl 命令,即使同步过去 /root/.kube/config 文件到各个 node 节点上,也不行。 解决 检查 KUB 阅读全文
posted @ 2024-04-22 14:22 牛奔 阅读(868) 评论(0) 推荐(0) 编辑
摘要:前言 配置 calico 网络插件时,kubectl get node 报错: NoReady kubectl describe node node Name: node Roles: <none> Labels: beta.kubernetes.io/arch=amd64 beta.kuberne 阅读全文
posted @ 2024-04-22 13:57 牛奔 阅读(464) 评论(0) 推荐(0) 编辑
摘要:前言 kubeadm 生成的客户端证书在 1 年后到期。过期后,会导致服务不可用,使用过程中会出现:x509: certificate has expired or is not yet valid. 默认情况下,kubeadm 会生成运行一个集群所需的全部证书。但要使用自定义的证书,需要生成各个组 阅读全文
posted @ 2024-04-08 09:13 牛奔 阅读(726) 评论(0) 推荐(0) 编辑
摘要:前言 在 Kubernetes 1.16 版本之前,kubeadm 工具的 alpha certs 子命令用于生成和管理 Kubernetes 集群的证书。然而,从 Kubernetes 1.19 版本开始,kubeadm 引入了一套新的证书管理 API,并移除了 alpha certs 子命令。 阅读全文
posted @ 2024-03-28 09:58 牛奔 阅读(454) 评论(0) 推荐(0) 编辑
摘要:前言 kubernetes 版本为 v1.16.3 使用 kubelet get node 后报错: x509: certificate has expired or is not yet valid ,提示证书过期。 解决 检查证书何时过期 kubeadm alpha certs check-ex 阅读全文
posted @ 2024-03-27 18:59 牛奔 阅读(704) 评论(0) 推荐(0) 编辑
摘要:前言 在安装 kubernetes 插件 k8s-device-plugin时,报错: Error: template: nvidia-device-plugin/templates/gfd.yml:22:19: executing "nvidia-device-plugin/templates/g 阅读全文
posted @ 2024-01-30 15:23 牛奔 阅读(73) 评论(0) 推荐(0) 编辑
摘要:前言 k8s集群中,有pod出现了 Affinity ,使用 kubectl describe pod 命令,发现了报错 2 node(s) didn't match Pod's node affinity. Warning FailedScheduling <unknown> default-sc 阅读全文
posted @ 2024-01-26 16:52 牛奔 阅读(2422) 评论(0) 推荐(0) 编辑
摘要:前言 在 kubernetes 中配置 https://github.com/NVIDIA/k8s-device-plugin 时, 报错:Detected non-NVML platform: could not load NVML: libnvidia-ml.so.1: cannot open 阅读全文
posted @ 2023-10-18 21:34 牛奔 阅读(315) 评论(0) 推荐(1) 编辑
摘要:前言 在管理 Kubernetes 集群的过程中,我们经常会遇到这样一种情况:在某台节点上发现某个进程资源占用量很高,却又不知道是哪个容器里的进程。有没有办法可以根据进程 PID 快速找到 Pod 名称呢? 解决 假设现在有一个 prometheus 进程的 PID 是 14338: 要获取容器的 阅读全文
posted @ 2023-10-12 22:35 牛奔 阅读(356) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示