k8s定时备份与故障还原

Kubernetes etcd 定时备份及恢复方案

点关注👇👇👇不迷路

小小平头哥
分享行业知识,见闻,读书笔记
5篇原创内容

etcd 是一个高可用的分布式键值存储系统,在Kubernetes集群中用于存储和管理集群的所有关键信息,如配置数据、元数据、状态信息等。简而言之,etcd 存储了Kubernetes集群本身的所有数据,包括Pod、Service、Node、Namespace 等对象的元数据和状态。可以说,只要我们有了etcd的备份文件,就可以恢复Kubernetes集群的状态。

虽然etcd的数据是默认是存储在宿主机本地的,但在极端的情况下(比如机器异常断电等),正在工作的etcd被暴力中止,可能会导致数据无法恢复,所以etcd的定时备份和恢复是非常有意义的。

1. 定时备份

以下是k8s集群中创建定时备份etcd任务的yaml文件:

apiVersion: batch/v1
kind: CronJob
metadata:
  name: etcd-disaster-recovery  # 定义 CronJob 的名称
  namespace: cronjob  # 指定 CronJob 所属的命名空间
spec:
  schedule: "0 2 * * *"  # 设置定时任务的调度时间表达式,表示每天凌晨2点执行一次
  jobTemplate:
    spec:
      template:
        metadata:
          # labels:
          #   app: etcd-disaster-recovery  # 为 Pod 添加标签,可根据需要注释或删除
        spec:
          affinity:  # 定义 Pod 的亲和性配置
            nodeAffinity:
              requiredDuringSchedulingIgnoredDuringExecution:
                nodeSelectorTerms:
                - matchExpressions:
                  - key: kubernetes.io/hostname
                    operator: In
                    values:
                    - master01  # 选择特定的节点(这里是选择 hostname 为 master01 的节点)
          containers:  # 定义 Pod 中的容器
          - name: etcd  # 容器名称
            image: registry.k8s.io/etcd:3.5.10-0  # 使用的 etcd 镜像版本为 3.5.10-0
            imagePullPolicy: "IfNotPresent"  # 镜像拉取策略,如果本地已存在该镜像,则不重新拉取
            command:  # 容器启动命令
            - sh
            - -c
            - "export ETCDCTL_API=3; \
               etcdctl --endpoints=$ENDPOINT \
               --cert=/etc/kubernetes/pki/etcd/server.crt \
               --key=/etc/kubernetes/pki/etcd/server.key \
               --cacert=/etc/kubernetes/pki/etcd/ca.crt \
               snapshot save /snapshot/snapshot.db; \
               echo etcd backup success"
            env:  # 环境变量配置,设置了一个名为 ENDPOINT 的环境变量,值为 "https://127.0.0.1:2379"
            - name: ENDPOINT
              value: "https://127.0.0.1:2379"
            volumeMounts:  # 挂载配置,指定了容器中需要挂载的卷和挂载路径
            - mountPath: "/etc/kubernetes/pki/etcd"  # 将主机上的 /etc/kubernetes/pki/etcd 目录挂载到容器的 /etc/kubernetes/pki/etcd 路径
              name: etcd-certs
            - mountPath: "/var/lib/etcd"  # 将主机上的 /var/lib/etcd 目录挂载到容器的 /var/lib/etcd 路径
              name: etcd-data
            - mountPath: "/snapshot"  # 将主机上的 /root/etcd/snapshot 目录挂载到容器的 /snapshot 路径
              name: snapshot
              subPath: data/etcd-snapshot  # 在主机上的 /root/etcd/snapshot 目录下,将数据挂载到容器的 /snapshot/data/etcd-snapshot 路径下
            - mountPath: /etc/localtime  # 将主机上的 /etc/localtime 文件挂载到容器的 /etc/localtime 路径
              name: lt-config
            - mountPath: /etc/timezone  # 将主机上的 /etc/timezone 文件挂载到容器的 /etc/timezone 路径
              name: tz-config
          restartPolicy: OnFailure  # 定义容器重启策略,当容器失败时才会重启
          volumes:  # 卷配置,定义了 Pod 中使用的卷
          - name: etcd-certs
            hostPath:
              path: /etc/kubernetes/pki/etcd  # 使用主机上的 /etc/kubernetes/pki/etcd 目录作为卷
          - name: etcd-data
            hostPath:
              path: /var/lib/etcd  # 使用主机上的 /var/lib/etcd 目录作为卷
          - name: snapshot
            hostPath:
              path: /root/etcd/snapshot  # 使用主机上的 /root/etcd/snapshot 目录作为卷
          - name: lt-config
            hostPath:
              path: /etc/localtime  # 使用主机上的 /etc/localtime 文件作为卷
          - name: tz-config
            hostPath:
              path: /etc/timezone  # 使用主机上的 /etc/timezone 文件作为卷
        hostNetwork: true  # 使用主机网络模式,Pod 将共享主机的网络命名空间

 

2. 恢复

 

(1)查看备份文件所在位置

图片

(2)移除本地etcd数据

mv /var/lib/etcd /var/lib/etcd.bak

(3)停止etcd以及apiserver服务

etcd以及apiserver默认是以静态容器的方式运行的,静态容器的配置文件存放目录是 /etc/kubernetes/manifests/,所以将两个文件暂时移出此目录,两个服务就终止了。

图片

mv /etc/kubernetes/manifests/{kube-apiserver.yaml,etcd.yaml}  /tmp/

(4)执行恢复命令

ETCDCTL_API=3 etcdctl snapshot restore /root/etcd/snapshot/data/etcd-snapshot/snapshot.db --data-dir=/var/lib/etcd

(5)恢复k8s的etcd以及apiserve

mv /tmp/{kube-apiserver.yaml,etcd.yaml}  /etc/kubernetes/manifests

(6)恢复完成。

 

👇欢迎大家在评论区或私信批评、指正。

参考内容:

1. Restore Kubernetes Objects from ETCD | by Ching Yi, Chan | InfuseAI

收录于合集 #云原生相关
 6
上一篇5分钟打通办公网与K8S集群网络
 
阅读 215
小小平头哥
 
 
关注公众号后可以给作者发消息
 
 
 
 
 
 
posted @   技术颜良  阅读(314)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全网最简单!3分钟用满血DeepSeek R1开发一款AI智能客服,零代码轻松接入微信、公众号、小程
· .NET 10 首个预览版发布,跨平台开发与性能全面提升
· 《HelloGitHub》第 107 期
· 全程使用 AI 从 0 到 1 写了个小工具
· 从文本到图像:SSE 如何助力 AI 内容实时呈现?(Typescript篇)
历史上的今天:
2022-11-23 Go语言中,定时器有 2种 实现方法,分别是什么 ?
2021-11-23 Go-常量-const
2020-11-23 logstash实现敏感信息脱敏及超长字符截取
2018-11-23 Hadoop原生态版安装
点击右上角即可分享
微信分享提示