etcdctl的具体操作指南

Kubernetes生产实战：etcdctl高手速成指南

在Kubernetes的世界里，etcdctl是直通集群"大脑"的手术刀——用得好能救命，用不好直接送走整个集群！本文将揭秘生产环境中etcdctl的正确打开方式，让你从青铜到王者。

一、环境准备：安全连接三件套

1. 证书配置（生产必做）

# 典型证书路径（kubeadm集群）
export ETCDCTL_CACERT=/etc/kubernetes/pki/etcd/ca.crt
export ETCDCTL_CERT=/etc/kubernetes/pki/etcd/server.crt
export ETCDCTL_KEY=/etc/kubernetes/pki/etcd/server.key

2. 集群节点信息

# 多节点连接（建议至少连接3个节点）
export ENDPOINTS="https://10.0.0.1:2379,https://10.0.0.2:2379,https://10.0.0.3:2379"

3. 常用别名设置（效率翻倍）

alias etcdv3='ETCDCTL_API=3 etcdctl --endpoints=$ENDPOINTS --cert=$ETCDCTL_CERT --key=$ETCDCTL_KEY --cacert=$ETCDCTL_CACERT'

二、核心命令：生产环境高频操作

1. 集群健康检查（每日必做）

etcdv3 endpoint health -w table
# 输出示例：
# +---------------------+--------+------------+-------+
# |      ENDPOINT       | HEALTH |   TOOK     | ERROR |
# +---------------------+--------+------------+-------+
# | https://10.0.0.1:2379 |   true | 12.345678ms |       |

2. 数据存取操作

# 写入带租约的key（30秒自动过期）
LEASE=$(etcdv3 lease grant 30 | awk '{print $2}')
etcdv3 put --lease=$LEASE /temp/key "data"

# 读取所有Deployment
etcdv3 get --prefix /registry/deployments/

# 删除异常Pod记录
etcdv3 del /registry/pods/default/crashed-pod

3. 监控与诊断

# 实时监听Service变更
etcdv3 watch --prefix /registry/services/

# 查看性能指标
etcdv3 check perf
# 关键指标：
# Throughput: 5000 writes/s
# Latency: 50ms

三、生产环境六大黄金法则

最小权限原则

# 使用只读证书（RBAC生成）
export ETCDCTL_CERT=/path/to/readonly.crt

操作前先备份

# 全量快照（每小时执行）
etcdv3 snapshot save $(date +%Y%m%d-%H%M).db

批量操作要谨慎

# 错误示范：直接删除所有Pod ❌
etcdv3 del --prefix /registry/pods/

# 正确做法：通过kubectl驱逐 ✅
kubectl drain <node> --delete-emptydir-data

版本控制要严格

# 查看历史版本
etcdv3 get --rev=12345 /registry/configmap/default/app-config

敏感数据要加密

# 写入加密数据（使用KMS插件）
etcdv3 put /secret/db-password $(echo "P@ssw0rd" | openssl enc -aes-256-cbc)

操作记录要审计

# 查看最近10条操作日志
etcdv3 get --from-revision=$(etcdv3 endpoint status -w json | jq .[].header.revision-10) /

四、灾难恢复：从删库到跑路如何自救

场景1：误删关键配置

# 1. 停止apiserver
systemctl stop kube-apiserver

# 2. 查找最后正确版本
LAST_GOOD_REV=$(etcdv3 get --write-out=json /registry | jq .header.revision)

# 3. 恢复数据
etcdv3 txn <<<'
compare:
mod("/registry") < $LAST_GOOD_REV

success:
put /registry "restored_data"
'

# 4. 重启集群组件
systemctl restart etcd kube-apiserver

场景2：证书过期无法连接

# 应急临时证书（仅测试环境！）
etcdctl --insecure-skip-tls-verify=true endpoint status

五、高级技巧：解锁etcdctl完全体

1. 性能压测神器

etcdv3 check perf --load=s --precise \
  --target-leader \
  --conns=100 \
  --clients=1000 \
  --sequential-keys

2. 空间优化组合拳

# 压缩历史版本（保留2小时）
COMPACT_REV=$(etcdv3 endpoint status -w json | jq .[].header.revision-10000)
etcdv3 compact $COMPACT_REV

# 碎片整理（逐个节点执行）
for ep in ${ENDPOINTS//,/ }; do
  etcdv3 --endpoints=$ep defrag
done

3. 元数据分析

# 统计所有key数量
etcdv3 get --prefix / --keys-only | grep -v ^$ | wc -l

# 按类型分类统计
etcdv3 get --prefix /registry --keys-only | awk -F'/' '{print $3}' | sort | uniq -c

六、避坑指南：血的教训总结

陷阱1：直接修改控制器状态

# 错误操作 ❌
etcdv3 put /registry/deployments/default/nginx '{"spec":{"replicas":10}}'

# 正确姿势 ✅
kubectl scale deploy nginx --replicas=10

陷阱2：跨版本API混用

# 必须显式指定API版本！
ETCDCTL_API=3 etcdctl get /key  # ✅

etcdctl get /key  # ❌ 默认使用v2 API

陷阱3：未处理大value

# 设置大value限制（默认1.5MB）
etcdv3 put /big-data "$(dd if=/dev/urandom bs=2M count=1 | base64)"
# 报错：etcdserver: request is too large

结语

etcdctl是把双刃剑，记住三个终极原则：

能不动就不动 - 优先通过kubectl操作
要动先备份 - 快照是最后的救命稻草
改动要评审 - 所有变更两人确认

现在，立刻执行你的第一次etcd快照备份！当真正需要用到这些技巧时，你会感谢今天的未雨绸缪。记住：在Kubernetes的世界里，谨慎才是最高级的技术。

posted on 2025-02-22 14:54 Leo_Yide 阅读(338) 评论(0) 收藏举报