k8s定时备份与故障还原

Kubernetes etcd 定时备份及恢复方案

原创小小平头哥小小平头哥 2023-11-23 11:17 发表于山东

收录于合集

#云原生相关6个

#kubernetes1个

#k8s使用技巧3个

#k8s5个

点关注👇👇👇不迷路

小小平头哥

分享行业知识，见闻，读书笔记

5篇原创内容

公众号

etcd 是一个高可用的分布式键值存储系统，在Kubernetes集群中用于存储和管理集群的所有关键信息，如配置数据、元数据、状态信息等。简而言之，etcd 存储了Kubernetes集群本身的所有数据，包括Pod、Service、Node、Namespace 等对象的元数据和状态。可以说，只要我们有了etcd的备份文件，就可以恢复Kubernetes集群的状态。

虽然etcd的数据是默认是存储在宿主机本地的，但在极端的情况下（比如机器异常断电等），正在工作的etcd被暴力中止，可能会导致数据无法恢复，所以etcd的定时备份和恢复是非常有意义的。

1. 定时备份

以下是k8s集群中创建定时备份etcd任务的yaml文件：

apiVersion: batch/v1kind: CronJobmetadata:  name: etcd-disaster-recovery  # 定义 CronJob 的名称  namespace: cronjob  # 指定 CronJob 所属的命名空间spec:  schedule: "0 2 * * *"  # 设置定时任务的调度时间表达式，表示每天凌晨2点执行一次  jobTemplate:    spec:      template:        metadata:          # labels:          #   app: etcd-disaster-recovery  # 为 Pod 添加标签，可根据需要注释或删除        spec:          affinity:  # 定义 Pod 的亲和性配置            nodeAffinity:              requiredDuringSchedulingIgnoredDuringExecution:                nodeSelectorTerms:                - matchExpressions:                  - key: kubernetes.io/hostname                    operator: In                    values:                    - master01  # 选择特定的节点（这里是选择 hostname 为 master01 的节点）          containers:  # 定义 Pod 中的容器          - name: etcd  # 容器名称            image: registry.k8s.io/etcd:3.5.10-0  # 使用的 etcd 镜像版本为 3.5.10-0            imagePullPolicy: "IfNotPresent"  # 镜像拉取策略，如果本地已存在该镜像，则不重新拉取            command:  # 容器启动命令            - sh            - -c            - "export ETCDCTL_API=3; \               etcdctl --endpoints=$ENDPOINT \               --cert=/etc/kubernetes/pki/etcd/server.crt \               --key=/etc/kubernetes/pki/etcd/server.key \               --cacert=/etc/kubernetes/pki/etcd/ca.crt \               snapshot save /snapshot/snapshot.db; \               echo etcd backup success"            env:  # 环境变量配置，设置了一个名为 ENDPOINT 的环境变量，值为 "https://127.0.0.1:2379"            - name: ENDPOINT              value: "https://127.0.0.1:2379"            volumeMounts:  # 挂载配置，指定了容器中需要挂载的卷和挂载路径            - mountPath: "/etc/kubernetes/pki/etcd"  # 将主机上的 /etc/kubernetes/pki/etcd 目录挂载到容器的 /etc/kubernetes/pki/etcd 路径              name: etcd-certs            - mountPath: "/var/lib/etcd"  # 将主机上的 /var/lib/etcd 目录挂载到容器的 /var/lib/etcd 路径              name: etcd-data            - mountPath: "/snapshot"  # 将主机上的 /root/etcd/snapshot 目录挂载到容器的 /snapshot 路径              name: snapshot              subPath: data/etcd-snapshot  # 在主机上的 /root/etcd/snapshot 目录下，将数据挂载到容器的 /snapshot/data/etcd-snapshot 路径下            - mountPath: /etc/localtime  # 将主机上的 /etc/localtime 文件挂载到容器的 /etc/localtime 路径              name: lt-config            - mountPath: /etc/timezone  # 将主机上的 /etc/timezone 文件挂载到容器的 /etc/timezone 路径              name: tz-config          restartPolicy: OnFailure  # 定义容器重启策略，当容器失败时才会重启          volumes:  # 卷配置，定义了 Pod 中使用的卷          - name: etcd-certs            hostPath:              path: /etc/kubernetes/pki/etcd  # 使用主机上的 /etc/kubernetes/pki/etcd 目录作为卷          - name: etcd-data            hostPath:              path: /var/lib/etcd  # 使用主机上的 /var/lib/etcd 目录作为卷          - name: snapshot            hostPath:              path: /root/etcd/snapshot  # 使用主机上的 /root/etcd/snapshot 目录作为卷          - name: lt-config            hostPath:              path: /etc/localtime  # 使用主机上的 /etc/localtime 文件作为卷          - name: tz-config            hostPath:              path: /etc/timezone  # 使用主机上的 /etc/timezone 文件作为卷        hostNetwork: true  # 使用主机网络模式，Pod 将共享主机的网络命名空间

2. 恢复

（1）查看备份文件所在位置

（2）移除本地etcd数据

mv /var/lib/etcd /var/lib/etcd.bak

（3）停止etcd以及apiserver服务

etcd以及apiserver默认是以静态容器的方式运行的，静态容器的配置文件存放目录是 /etc/kubernetes/manifests/，所以将两个文件暂时移出此目录，两个服务就终止了。

mv /etc/kubernetes/manifests/{kube-apiserver.yaml,etcd.yaml}  /tmp/

（4）执行恢复命令

ETCDCTL_API=3 etcdctl snapshot restore /root/etcd/snapshot/data/etcd-snapshot/snapshot.db --data-dir=/var/lib/etcd

（5）恢复k8s的etcd以及apiserve

mv /tmp/{kube-apiserver.yaml,etcd.yaml}  /etc/kubernetes/manifests

（6）恢复完成。

👇欢迎大家在评论区或私信批评、指正。

参考内容：

1. Restore Kubernetes Objects from ETCD | by Ching Yi, Chan | InfuseAI

收录于合集 #云原生相关

6个

上一篇5分钟打通办公网与K8S集群网络

阅读 215

小小平头哥

喜欢此内容的人还喜欢

如何通过Ingress解决gRPC长连接负载不均衡的问题

我看过的号

云原生运维圈

不看的原因

内容质量低
不看此公众号

温故知新-Docker 基础：Dockerfile & docker-compose

Linux运维小白

不看的原因

内容质量低
不看此公众号

报错处理：Kubernetes中Pod启动报错的排查与解决

运维家

不看的原因

内容质量低
不看此公众号

关注公众号后可以给作者发消息

人划线

posted @ 2023-11-23 18:59 技术颜良阅读(351) 评论(0) 收藏举报

刷新页面返回顶部

技术颜良

k8s定时备份与故障还原

Kubernetes etcd 定时备份及恢复方案

（1）查看备份文件所在位置

公告